【1.2】自由度

自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。

一、定义

统计学上,自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。一般来说,自由度等于独立变量减掉其衍生量数。举例来说,变异数的定义是样本减平均值(一个由样本决定的衍生量),因此对N个随机样本而言,其自由度为N-1。

数学上,自由度是一个随机向量的维度数,也就是一个向量能被完整描述所需的最少单位向量数。举例来说,从电脑屏幕到厨房的位移能够用三维向量

来描述,因此这个位移向量的自由度是3。自由度也通常与这些向量的坐标平方和,以及卡方分布中的参数有所关联 [1] 。

二、应用

1.若存在两个变量a 、b ,而 a+b 那么他的自由度为1。因为其实只有a 才能真正的自由变化, b会被a 选值的不同所限制。

2.估计总体的平均数u时,由于样本中的 n个数都是相互独立的,任一个尚未抽出的数都不受已抽出任何数值的影响,所以自由度为n 。

3.估计总体的方差 δ2 时所使用的统计量是样本的标准差 s ,而 s 必须用到样本平均数 x 来计算。在抽样完成后已确定,所以大小为 的样本中只要 n-1 个数确定了,第 n 个数就只有一个能使样本符合 x 的数值。也就是说,样本中只有 n-1个数可以自由变化,只要确定了这 n-1 个数,方差也就确定了。这里,平均数 x 就相当于一个限制条件,由于加了这个限制条件,样本方差 s 的自由度为 n-1 。

4.统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有 p 个参数需要估计,则其中包括了 p-1 个自变量(与截距对应的自变量是常量)。因此该回归方程的自由度为 p-1 。

5.在一个包含 n 个个体的总体中,平均数为 m。知道了 n-1 个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以 n 而不是 n-1 呢?方差是实际值与期望值之差平方的期望值,所以已知道总体均值或其他统计参数时方差应除以 n ,除以n-1时是方差的一个无偏估计。

三、示例

例1 有一个有4个数据( n=4 )的样本,其平均值 m 等于5,即受到 m= 5 的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则 m ≠5 。因而这里的自由度 df = n -1 = 4-1 = 3 。推而广之,任何统计量的自由度 df = n -k (k为限制条件的个数)。

例2 如果用刀剖柚子,在北极点沿经线方向割3刀,得6个角。这6个角可视为3对。6个角的平均角度一定是60度。其中半边3个角中,只会有2个可以自由选择,一旦2个数值确定第3个角也会唯一地确定。在总和已知的情况下,切分角的个数比能够自由切分的个数大1。

PS

字面意思能懂,但也就限于字面意思。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn