【3.3】刀切法

Jackknife由Maurice Quenouille (1949)首先提出

Jackknife为一种瑞士小折刀,很容易携带。通过类比, John W. Tukey (1958)在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法。

刀切法的提出,是基于点估计准则无偏性。刀切法的作用就是不断地压缩偏差。但需要指出的是缩小偏差并不是一个好的办法,因为偏差趋于0时,均方误差会变得十分大。而且无偏性只有在大量重复时才会表现出与真值的偏差不大。Jackknife的想法在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何。

刀切法的原始动机是降低估计的偏差。常用做法是:每次从样本集中删除一个或者几个样本,剩余的样本成为“刀切”样本,由一系列这样的刀切样本计算统计量的估计值。从这一批估计值,不但可以得到算法的稳定性衡量(方差),还可以减少算法的偏差。这个方法暗示,刀切法的样本集需要事先给定,即,它的重采样过程是在给定样本集上的采样过程。

刀切法有二大优点,即减少偏性以及对许多参数给出近似置信区间。

例如我们来看使用刀切法估计正态分布N(2,25)的方差,我们认为样本的修正方差是关于总体方差的一个估计量使用刀切法:

>x<-rnorm(100,2,5)
>jack<-function(x){
 jackknife<-0
 for(i   in  1:length(x))     
  jackknife[i]=length(x)*var(x)-(length(x)-1)/length(x)*sum(var(x[-i]))
  jackknife
 }

>mean(jack(x))/length(x)
[1]26.07598
> var(x)
[1]26.33671

可以看出刀切法得到的估计量更接近总体方差。

参考资料:

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学