【1.4】变异程度和分布形态的统计指标--标准差/极差/变异系数
同一总体中不同个体间存在的差异称为变异(variation)
一、描述变异程度统计指标
1、极差(range,R)
通过计算全距(也叫极差),我们可以轻易获知数据分散的情况。全距指出数据的扩展范围,有点儿像测量数据的宽度。全距的计算方法是:用数据集中的最大数减去数据集中的最小数。
最小值成为下界,最大值成为上界。
R = 最大值-最小值
计算简便,但仅利用了两个数据的信息 一般,样本量n越大R也往往会越大, 不够稳定
全距能量度数值的展开宽度,但很难得出数据的真实分布形态。 而且很容易受异常值的影响。
2.四分位间距(interquartile range,Q)
迷你距
构建迷你距的一个办法是:仅适用数据中心周边的数值。为此,首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一的原有数据。将整批数据一分为四作用的几个数值就是所谓的四分位数。
- 最小的四分位数(Q1)称为下四分位数或第一四分位数,
- 最大的四分位数(Q3)称为上四分位数或第三四。
- 中间的四分位数(Q2)就是中位数,因为它将数据一分为二。
- 每两个四分位数之间的距被陈为四分位距(IQR)。
四分位距 = 上四分位数 - 下四分数
四分位距的优点是:与全距相比,较少手到异常值的影响。
由于四分位距仅用了处于中心部位的50%的数据,因此,无论异常值是极大值还是极小值,均被排除在外。异常值不可能处于中心部位–这意味着,数据中的所有异常值都被有效的剔除了。
Q越大意味着数据间变异越大
百分位数
如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。在上例中,我们的数据被分成10份,因此起分割作用的数值被称为十分位数。
我们可以用百分位数构建一个新的距,称为百分位距。
第十百分位数就是位于数据范围10%处的数值。通知,第k百分位数就是位于数据范围K%处的数值,常用Pk表示。
用箱线图绘制种“距”
箱线图显示数据的全距,四分位距以及中位数。
常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。
3.方差(variance)
- 方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
- 又称均方差(mean square deviation)方差越大意味着数据间变异越大。
总体方差:
$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N} }$$
样本方差:
$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N-1} }$$
标准差(standard deviation,S)
- 标准差是方差的算术平方根。
- 标准差的量纲与原变量一致。
- 标准差越大意味着个体间变异越大。
- 标准差适合用来表达对称分布的离散趋势。
- 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。
方差速算法:
方差 = ∑(x)2 /n -(µ)2
2.为什么使用标准差?
与方差相比,使用标准差来表示数据点的离散程度有3个好处:
- 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
- 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
- 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
贝赛尔修正 在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
3.公式的选择
是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。
如果是要用样本评估总体方差,则需哟啊除以n-1。只有在需要计算一组确切数值的方差时,才除以n
4.R中平均值、方差与标准差的计算
在R中,平均值是通过mean()函数来计算的:
x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
mean(x)
方差则通过var()函数来计算:
x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
var(x)
标准差则通过sd()函数来计算:
x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
sd(x)
值得一提的是,R中所计算的方差和标准差是经过贝塞尔修正的;如果需要计算未经修正的结果,可以在R的计算结果上乘以(N-1)/N。
5.平均值与标准差的适用范围及误用
大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件: 中部单峰:
-
数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。
-
这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。
遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。
6.讨论
如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。
5.变异系数(CV)
应用场合:
- 量纲不同的变量间变异程度的比较
- 均数差别较大的变量间变异程度的比较
$$ CV = {\frac {S} {\mu}} * 100\% $$
6.使用标准分比较不同数据集中的数值
使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法。
z= (x-µ)/σ
标准分释义
标准分为我们提供了一种对不同数据集的数据进行比较的方法,这些不同数据集的均值和标准差甚至各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。
距离均值若干个标准差
通过z分将数据集转化为一个均值为0,标准差为1的通用分布。如果一个数值在距离均值1个标准差的范围内,我们就知道,数值的标准分在-1到1之间。
二、描述分布形态统计指标
用偏度系数和峰度系数来描述分布形态。
1. 偏度系数 (coefficient of skewness,SKEW)
$$ SKEW = {\frac {n}{\left(n-1\right)\left(n-2\right)} }\sum \left({\frac {X-\mu}{S}}\right)^{3} $$
2.峰度系数(coefficient of kurtosis,KURT)
$$ KURT = {\frac {n\left(n+1\right)}{\left(n-1\right)\left(n-2\right)\left(n-3\right)}}\sum \left({\frac {X- \mu} {S}} \right)^{4} - {\frac {3 \left(n-1\right)^{2}} { \left(n-2\right) \left(n-3\right)}}$$
其中n为样本含量, u为样本均数,S为样本标准差 X
- 正态分布的总体峰度系数为0;
- 取负值时,其分布较正态分布的峰平阔;
- 取正值时,其分布较正态分布的峰尖峭。
其中n为样本含量,u为样本均数,S为样本标准差。
- 总体偏度系数为0时,分布是对称分布;
- 取正值时,分布为正偏峰;
- 取负值时,分布为负偏峰。
参考资料:
《深入浅出统计学》
中山大学课程 《医学统计学》方积乾
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn