【13.3】刀切法

June 23, 2014 statics_topic 阅读量：次

Jackknife由Maurice Quenouille (1949)首先提出

Jackknife为一种瑞士小折刀，很容易携带。通过类比， John W. Tukey (1958)在统计学中创造了这个术语，作为一种通用的假设检验和置信区间计算的方法。

刀切法的提出，是基于点估计准则无偏性。刀切法的作用就是不断地压缩偏差。但需要指出的是缩小偏差并不是一个好的办法，因为偏差趋于0时，均方误差会变得十分大。而且无偏性只有在大量重复时才会表现出与真值的偏差不大。Jackknife的想法在于：既然样本是抽出来的，那我在作估计、推断的时候“扔掉”几个样本点看看效果如何。

刀切法的原始动机是降低估计的偏差。常用做法是：每次从样本集中删除一个或者几个样本，剩余的样本成为“刀切”样本，由一系列这样的刀切样本计算统计量的估计值。从这一批估计值，不但可以得到算法的稳定性衡量(方差)，还可以减少算法的偏差。这个方法暗示，刀切法的样本集需要事先给定，即，它的重采样过程是在给定样本集上的采样过程。

刀切法有二大优点,即减少偏性以及对许多参数给出近似置信区间。

例如我们来看使用刀切法估计正态分布N(2,25)的方差，我们认为样本的修正方差是关于总体方差的一个估计量使用刀切法：

>x<-rnorm(100,2,5)
>jack<-function(x){
 jackknife<-0
 for(i   in  1:length(x))     
  jackknife[i]=length(x)*var(x)-(length(x)-1)/length(x)*sum(var(x[-i]))
  jackknife
 }

>mean(jack(x))/length(x)
[1]26.07598
> var(x)
[1]26.33671

可以看出刀切法得到的估计量更接近总体方差。

参考资料：

文献：用刀切法估计多样性指数` （赞）
文献：多样性指数分配的刀切估计及其应用
beta http://blog.csdn.net/yujunbeta/article/details/8067331
豆瓣 http://www.douban.com/note/265508213/
文献：“重采样方法与机器学习综述”，《计算机学报》2009年第5期（赞）
刀切法为评述 ,魏佘舒译应用数学与计算数学杂志,1980年第6期（没找到这个文献）

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn