【1.4】变异程度和分布形态的统计指标--标准差/极差/变异系数

February 07, 2017 statistics 阅读量：次

同一总体中不同个体间存在的差异称为变异(variation）

一、描述变异程度统计指标

1、极差(range，R)

通过计算全距（也叫极差），我们可以轻易获知数据分散的情况。全距指出数据的扩展范围，有点儿像测量数据的宽度。全距的计算方法是：用数据集中的最大数减去数据集中的最小数。

最小值成为下界，最大值成为上界。

R = 最大值-最小值

计算简便，但仅利用了两个数据的信息一般，样本量n越大R也往往会越大, 不够稳定

全距能量度数值的展开宽度，但很难得出数据的真实分布形态。而且很容易受异常值的影响。

2.四分位间距（interquartile range，Q)

迷你距

构建迷你距的一个办法是：仅适用数据中心周边的数值。为此，首先按升序排列数据，然后将这些数据分成四个相等的数据块，每一个数据块包含四分之一的原有数据。将整批数据一分为四作用的几个数值就是所谓的四分位数。

最小的四分位数（Q1）称为下四分位数或第一四分位数，
最大的四分位数（Q3）称为上四分位数或第三四。
中间的四分位数（Q2）就是中位数，因为它将数据一分为二。
每两个四分位数之间的距被陈为四分位距（IQR）。

四分位距 = 上四分位数 - 下四分数

四分位距的优点是：与全距相比，较少手到异常值的影响。

由于四分位距仅用了处于中心部位的50%的数据，因此，无论异常值是极大值还是极小值，均被排除在外。异常值不可能处于中心部位–这意味着，数据中的所有异常值都被有效的剔除了。

Q越大意味着数据间变异越大

百分位数

如果将一批数据按百分比进行分割，则起分割作用的数值被称为百分位数。在上例中，我们的数据被分成10份，因此起分割作用的数值被称为十分位数。

我们可以用百分位数构建一个新的距，称为百分位距。

第十百分位数就是位于数据范围10%处的数值。通知，第k百分位数就是位于数据范围K%处的数值，常用Pk表示。

用箱线图绘制种“距”

箱线图显示数据的全距，四分位距以及中位数。

常把中位数和四分位数间距结合起来描述变量的平均水平和变异程度。

3.方差（variance)

方差是量度数据分散性的一种方法，是数值与均值的距离的平方数的平均值。
又称均方差(mean square deviation)方差越大意味着数据间变异越大。

总体方差：

$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N} }$$

样本方差：

$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N-1} }$$

标准差(standard deviation，S)

标准差是方差的算术平方根。
标准差的量纲与原变量一致。
标准差越大意味着个体间变异越大。
标准差适合用来表达对称分布的离散趋势。
对于对称分布资料，常把均数和标准差结合起来，描述资料的集中趋势和离散趋势。

方差速算法：

方差 = ∑(x)2 /n -(µ)2

2.为什么使用标准差？

与方差相比，使用标准差来表示数据点的离散程度有3个好处：

表示离散程度的数字与样本数据点的数量级一致，更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例，其方差约为41，而标准差则为6.4；两者相比较，标准差更适合人理解。
表示离散程度的数字单位与样本数据的单位一致，更方便做后续的分析运算。
在样本数据大致符合正态分布的情况下，标准差具有方便估算的特性：66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内，而99%的数据点将会落在平均值前后3个标准差的范围内。

贝赛尔修正在上面的方差公式和标准差公式中，存在一个值为N的分母，其作用为将计算得到的累积偏差进行平均，从而消除数据集大小对计算数据离散程度所产生的影响。不过，使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度；如果数据集是某个更大的研究对象的样本(sample)，那么在计算该研究对象的离散程度时，就需要对上述方差公式和标准差公式进行贝塞尔修正，将N替换为N-1：

3.公式的选择

是否使用贝塞尔修正，是由数据集的性质来决定的：如果只想计算数据集本身的离散程度(population)，那么就使用未经修正的公式；如果数据集是一个样本(sample)，而想要计算的则是样本所表达对象的离散程度，那么就使用贝塞尔修正后的公式。在特殊情况下，如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下，该样本数据集不可能错过任何的异常值(outlier)，此时可以使用未经修正的公式来计算总体数据的离散程度。

如果是要用样本评估总体方差，则需哟啊除以n-1。只有在需要计算一组确切数值的方差时，才除以n

4.R中平均值、方差与标准差的计算

在R中，平均值是通过mean()函数来计算的：

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
mean(x)

方差则通过var()函数来计算：

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
var(x)

标准差则通过sd()函数来计算：

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
sd(x)

值得一提的是，R中所计算的方差和标准差是经过贝塞尔修正的；如果需要计算未经修正的结果，可以在R的计算结果上乘以(N-1)/N。

5.平均值与标准差的适用范围及误用

大多数统计学指标都有其适用范围，平均值、方差和标准差也不例外，其适用的数据集必须满足以下条件：中部单峰：

数据集只存在一个峰值。很简单，以假想的CPU使用率数据为例，如果50%的数据点位于20附近，另外50%的数据点位于80附近（两个峰），那么计算得到的平均值约为50，而标准差约为31；这两个计算结果完全无法描述数据点的特征，反而具有误导性。
这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例，如果80%的数据点位于20附近，剩下的20%数据随机分布于30~90之间，那么计算得到的平均值约为35，而标准差约为25；与之前一样，这两个计算结果不仅无法描述数据特征，反而会造成误导。

遗憾的是，在现实生活中，很多数据分布并不满足上述两个条件；因此，在使用平均值、方差和标准差的时候，必须谨慎小心。

6.讨论

如果数据集仅仅满足一个条件：单峰。那么，峰值在哪里？峰的宽带是多少？峰两边的数据对称性如何？有没有异常值(outlier)？为了回答这些问题，除了平均值、方差和标准差，需要更合适的工具和分析指标，而这，就是中位数、均方根、百分位数和四分差的意义所在。

5.变异系数（CV）

应用场合:

量纲不同的变量间变异程度的比较
均数差别较大的变量间变异程度的比较

$$ CV = {\frac {S} {\mu}} * 100\% $$

6.使用标准分比较不同数据集中的数值

使用标准分可以对不同数据集的数据进行比较，而这些不同数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法。

z= (x-µ)/σ

标准分释义

标准分为我们提供了一种对不同数据集的数据进行比较的方法，这些不同数据集的均值和标准差甚至各不一样。通过这种方法，我们可以把这些数值视为来自同一个数据集或数据分布，从而进行比较。

距离均值若干个标准差

通过z分将数据集转化为一个均值为0，标准差为1的通用分布。如果一个数值在距离均值1个标准差的范围内，我们就知道，数值的标准分在-1到1之间。

二、描述分布形态统计指标

用偏度系数和峰度系数来描述分布形态。

1. 偏度系数 (coefficient of skewness，SKEW)

$$ SKEW = {\frac {n}{\left(n-1\right)\left(n-2\right)} }\sum \left({\frac {X-\mu}{S}}\right)^{3} $$

2.峰度系数(coefficient of kurtosis，KURT)

$$ KURT = {\frac {n\left(n+1\right)}{\left(n-1\right)\left(n-2\right)\left(n-3\right)}}\sum \left({\frac {X- \mu} {S}} \right)^{4} - {\frac {3 \left(n-1\right)^{2}} { \left(n-2\right) \left(n-3\right)}}$$

其中n为样本含量， u为样本均数，S为样本标准差 X

正态分布的总体峰度系数为0;
取负值时，其分布较正态分布的峰平阔;
取正值时，其分布较正态分布的峰尖峭。

其中n为样本含量，u为样本均数，S为样本标准差。

总体偏度系数为0时，分布是对称分布;
取正值时，分布为正偏峰;
取负值时，分布为负偏峰。

参考资料：

《深入浅出统计学》

中山大学课程《医学统计学》方积乾

http://www.lifelaf.com/blog/?p=765

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn