【1.3】集中趋势(central tendency)--平均数/中位数/众数
一、均值
均值–平均数的一般度量
1.算数均数(arithmetic mean)
简称均数(mean),适合描述对称分布资料的集中位置(也称为平均水平)。直接法,计算公式为:
µ = ∑x /n
例如:
某年某医院8名女性晚期肺癌患者红细胞计数(1012/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其 算术均数。
X = 18(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38) = 3.91(1012/L)
**频率表法:**对于样本量较大的数据集(如例22)
可以 在编制频率表的基础上计算均数的近似值。其计算公式为:
$$\mu = {\frac {\sum fX_{0}} {\sum f}} = {\frac {fX_{0}} {n}}$$
f: 组段的频数 Xo = 组段的中值 =(组段上限+组段下限)/2
2、几何均数(geometric mean,G)
适用于原始观察值分布不对称或观察值变化范围跨越多个数量级的资料,但经对数转换后呈对称分布的变量,如服从对数正态分布的变量。
直接法:计算公式为:
$$G= ^{n}{\sqrt{X_{1}X_{2}...X_{n}}}$$
或:
$$ G = log^{-1}\left({\frac {\sum logX} {n}}\right) $$
一般采用以10为底的常用对数进行转换。
频率表法:
对于频率表资料,可以通过频率表法计算几何均数,计 算公式为:
$$ G = log^{-1}\left({\frac {\sum f *logX_{0}} {\sum f}}\right) = log^{-1}\left({\frac {\sum f * logX_{0}} {n}}\right) $$
异常值:
与其他数据格格不入的极高或极低的数值
二、 中位数(median,M)
当偏斜数据和异常值使均值产生误导时,我们就需要用其他方式表示典型值。
可用于各种分布的定量资料,特别是偏峰分布资料。
直接法计算:
基于原始数据,将n例数据按序排列,第i个数据记为 Xi
当n为奇数时,中位数可表示为:
$$ M= X_{{\frac {n+1} {2}}}$$
当n为偶数时,中位数表示为:
$$ M= {\frac {1} {2}}\left(X_{{\frac {n} {2}}} + X_{{\frac {n} {2}}+1}\right)$$
频率表法:对频率表资料,可通过百分位数法近似计算中位数。
百分位数(percentile)是指将n个观察值从小到大依次排 列后,对应于x%的数值。
对频率表资料,百分位数 的计算公式为:
$$P_{x} = L + {\frac {i}{f_{x}}} \left(n *x\% - F_{L} \right) $$
其中L为欲求的百分位数所在组段的下限,i为该组段的组距,为该组段内的频数,n为总频数, 为小于L 所在组段的累计频数。
三、众数(mode)
除了均值和中位数,还有第三种平均数,称为众数。
众数是一批数字中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。
如果一批数据有两个众数,则我们说这种数据是双峰数据。
参考资料:
《深入浅出统计学》
中山大学课程 《医学统计学》方积乾
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn