【13.3】刀切法
Jackknife由Maurice Quenouille (1949)首先提出
Jackknife为一种瑞士小折刀,很容易携带。通过类比, John W. Tukey (1958)在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法。
刀切法的提出,是基于点估计准则无偏性。刀切法的作用就是不断地压缩偏差。但需要指出的是缩小偏差并不是一个好的办法,因为偏差趋于0时,均方误差会变得十分大。而且无偏性只有在大量重复时才会表现出与真值的偏差不大。Jackknife的想法在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何。
刀切法的原始动机是降低估计的偏差。常用做法是:每次从样本集中删除一个或者几个样本,剩余的样本成为“刀切”样本,由一系列这样的刀切样本计算统计量的估计值。从这一批估计值,不但可以得到算法的稳定性衡量(方差),还可以减少算法的偏差。这个方法暗示,刀切法的样本集需要事先给定,即,它的重采样过程是在给定样本集上的采样过程。
刀切法有二大优点,即减少偏性以及对许多参数给出近似置信区间。
例如我们来看使用刀切法估计正态分布N(2,25)的方差,我们认为样本的修正方差是关于总体方差的一个估计量使用刀切法:
>x<-rnorm(100,2,5)
>jack<-function(x){
jackknife<-0
for(i in 1:length(x))
jackknife[i]=length(x)*var(x)-(length(x)-1)/length(x)*sum(var(x[-i]))
jackknife
}
>mean(jack(x))/length(x)
[1]26.07598
> var(x)
[1]26.33671
可以看出刀切法得到的估计量更接近总体方差。
参考资料:
- 文献: 用刀切法估计多样性指数` (赞)
- 文献:多样性指数分配的刀切估计及其应用
- beta http://blog.csdn.net/yujunbeta/article/details/8067331
- 豆瓣 http://www.douban.com/note/265508213/
- 文献:“重采样方法与机器学习综述”,《计算机学报》2009年第5期 (赞)
- 刀切法为评述 ,魏佘舒译 应用数学与计算数学杂志,1980年第6期(没找到这个文献)
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn