【6.4】--books--女士品茶

October 12, 2017 statistics 阅读量：次

第1章女士品茶

随机 (randomness) ：不可预测性(unpredictability) 的另一个说法概率(probability) ：统计(statistics)

费歇尔表明，实验设计的第一步是建立一组数学公式，用以描素述待搜集数据与欲估计结果之间的关系，因此，任何有用的实验必须是能够供估计结果的。

拉普拉斯(Laplace)发明了误差函数

第2章偏斜分布

高尔顿这个名字，缘于他是指纹现象的“发现者”

高尔顿用发现了他称之为“向平均回归”(regression to the mean)的现象，这表现为:非常高的父亲，其儿子往往要比父亲矮一些;而非常矮的父亲，其儿子往往要比父亲高一些

但却是他的弟子 K·皮尔逊，在非常完整的意义上第一个规范地阐明了这个观念–分布与参数。

拉普拉斯的数学论文描述述了第一个概率分布，即误差分布，那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线 (bell-shaped curve)或正态分布(the normal distribution1)的说法进入了大众的词汇

K·皮尔逊认为，测量值本身，而不是测量的误差，就具有一种正态分布。我们所测量的，实际上是随机散布的一部分，它们的概率通过数学函数——分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数，他宣称，这组函数可以描述科学家在数据中可能遇到的任何散布类型，这组函数中的每一个分布由四个数字所确定。

这些数字后来被称为参数(parameters—— 源自希腊语，意思是“几乎测量”(almost measurements)。能够完整地描述 K·皮尔逊体系中数字的四个参数分别被称为:

平均数(the mean)
标准差(the standard deviation)
对称性(symmetry)——测量值在平均值一侧规程的程度
峰度(kurtosis)——个别的观测值偏离平均值有多远。

K·皮尔逊从这些工作中发展了一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具，这是现代科学所不可缺少的

K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身，而是数学分布函数，以描述与所观测事物相联系的概率。

第 3 章可爱的戈塞特先生

戈塞特检验了数据，确定酵母细胞的数量可以用所知的泊松分布(Poisson distribution3)来描述，这并不是 K·皮尔逊偏斜分布家族中的一种概率分布。事实上，它是一种只有 1 个(而不是 4 个) 参数的特殊分布。

戈塞特的首次发现是仅是以“学生”的名义发表的。

所有的科学家都受惠于戈塞特的一篇短文，该文的题目是“平均数的可能误差”(The Probable Error of the Meam)

第 4 章在“垃圾堆”中寻觅

K·皮尔逊吹毛求疵的态度让费歇尔感到自身受到漠视，同时，他也没能够让类似的论文在《皇家统计学会期刊》

费歇尔的政治见解与 K·皮尔逊不同，后者钟情于社会主义和马克思主义，他同情被压迫者，并喜欢挑战保守的优等阶层。（费歇尔主张鼓励中产阶级多生育，呼吁政府减少对贫困人的补助，为国家选择好的基因）

费歇尔关注优生学，这导致他将相当大的精力投入到遗传学的数学研究中。当时有一种新观念，认为某种植物或动物的特性可能来自一个单个基因，这以两种形式中的一个就可表现出来。从这种观念出发，费歇尔将格雷戈尔·门德尔的工作大大地推进了，他指出如何估计两个相信基因的彼此影响。

第5章收成变动研究

费歇尔的变异数分析

精心设计的科学实验中，如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析” (ananlysis of variance)

自由度

1924 年，费歇尔提出借助自由度’(degrees of freedom)这个新概念，来调和由不同作者观测到的有差异和表现异常的结果”

1947 年，英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论，阐述科学的本质与科学研究，在其中一讲的开头，费歇尔这样说道:

科学生涯从某些方面看是奇异的，科学存在的理由，是要增加对自然知识的认知。有时候，虽然会有这种认知的增加，但是这个过程不是顺利的，并且是令人感到痛苦的。理由是:人们不可避免地会发现以前所得出的观点，至少在一定程度上，明显是过时的或者错误的。我想大多数人可以认识到这一点，如果已经教授了 10 年左右的东西需要修正，他们会以下面的态度加以接受。但有一些人绝对不能接受，就好像打击了他们的自尊心，甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍，在春天里我们可以看到，当自己的小巢被冒犯里，它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导，当他们奉献出珍宝去丰富人类的宝库时，必然有人会拒绝他或排挤他。

第 6 章 “百年不遇的洪水”

尽管在 K·皮尔逊在实验室里有那么多激励，尽管蒂皮特在进修期间学到很多数学知识，然而有关最不牢固的纤维强度的分布问题依然没有解决。

为此，他请教了费歇尔，费歇尔不仅能导出蒂皮特所猜的解，而且还给出了另外两个解，并指出，这些就是仅有的解。这就是所谓的“蒂皮特的三条极值渐近线”(Tippett’s three asymptotes of the extreme)。

极值分布

1958 年，当时在哥伦比亚大学(Columbia University) 任工程学教授的埃米尔·J·冈贝尔(Emil J. Gumbel)，出版了那本关于极值的权威教材，书名是《极值统计学》 (Statistics of Extremes)。

冈贝尔搜集了许多案例，走访证人，证明判决那些凶手无罪是错误的。1922 年，他出版了《四年的政治谋杀》(Four Years of Political Murder)一书，把他搜集调查的结果公之于众。用于揭露纳碎党的罪行。

第7章费歇尔获胜

费歇尔学派与皮尔逊学派:两种统计观

K·皮尔逊把统计分布视为对他所分析数据的集合的真实描述。而按照费歇尔的观点，真实分布只是一个抽象的数学公式，搜集的数据只能用来估计这个真实分布的参数。既然所有的估计都有误差，那么费歇尔提出来的一些分析的手段，可以把这种误差的程度降到最低，或者可以更经常地得出比其他任何手段都更接近真实分布的答案。

K·皮尔逊把测量值的分布视为一个真实的存在。在他的方法里，对于一个给定的情况，有一个庞大的然而却是有限的 (finite) 测量值的集合。在理想情况下，科学家会搜集所有的这些测量值，并确定其分布参数。如果无法搜集到全部测量值，那么就搜集一个很大的并且具有代表性的数据子集 (subset)。由这些大量的、且具代表性的子集计算出来的参数会与完备集合的参数相同;此外，那些用来计算完备集合参数值的数学方法也适用于有代表性的子集的参数估计，而不会有严重的误差。

但依照费歇尔的观点，测量值是从所有可能出现的测量值中随机选取的，依据随机选取的数据计算得出的一个参数的任何估计值，其结果本身也具有随机性，因此，也会服从一种概率分布。为了能清楚地区分参数的估计值与参数本身这两个不同的概念，费歇尔把这个估计值称为“统计量”(statistic);不过现代术语往往称其为“估计量”(estimator)。

假设我们有两种不同的方法可以得到一个统计量，以估计某个特定的参数。例如老师想了解一个学生对知识掌握到什么程度(参数)，就在全班进行了几次测验(测量)，并且计算出测验的平均分数(统计量)。那么，究竟是用中位数(median)作统计量“更好”呢，或是取这几次测验中的最高分与最低分的平均值“更好”呢，还是去年最高分与最低分然后把其余的测验成绩加以平均“更好”?

既然统计量是随机的，那么讨论这个统计量的某个值的准确性到底有多大是毫无意义的。我们需要的是一个判别的准则，这个准则以统计量的概率分布为依据，就像 K·皮尔逊所指出的那样，对一组测量进行估计，必须根据它们的概率分布，而不是根据个别观测值。评判哪一个是好的统计量，费歇尔提出了如下三个准则:

一致性(consistency):得到的数据越多，计算出来的统计量接近参数真值的概率就越大;
无偏性(unbiasedness):如果用很多组不同数据集多次测量一特定的统计量，那么该统计量的这些测量值的平均数应该近似于这个参数的真值;
有效性(efficiency):统计量的值不会完全等于该参数的真值，但是用来估计一个参数的大多数统计量应该与真值相去不远。这些阐述似乎有点含混不清，这是因为我在竭尽全力地把一些本来精确的数学公式，用一些一般性的文字表述出来。实际上，费歇尔的这些准则都可以用恰当的数学式来表达。

费歇尔的极大似然法

为了得到一致且有效(但未必无偏)的统计量，费歇尔提出了被他称之为“极大似然估计量”(maximum likelihood estimator, MLE)的一个概念。

迭代算法

第8章致死的剂量

布利斯发明了一种他称之为“概率单位分析” (probit analysis)的方法，这项发明需要一种非凡跨越的原创性思想。

他之所以使用“概率单位”(probit)这个词，是因为他的模型建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。他的模型中生成的最重要的参数谓之“半数致死剂量”(50 percent lethal does)，通常用“LD-50”来表示，是指杀虫剂能以50%的概率杀死虫子的剂量。

布利斯在列宁格勒

第9章钟形曲线

这些理论问题中，最为重要的是中心极限定理(central limit theorem)。直到 20 世纪 30 年代初，这还是个未经证明的定理，或者说只是一个猜想(conjecture)，因为许多人都信其为真，却没有一个人能证明它成立。

什么是中心极限定理?

大量数据集合的平均数都有一个统计分布，而中心极限定理则阐明，无论初始数据是怎么来的，这个分布都可以用正态概率分布来逼近。这个正态概率分布与拉普拉斯的误差函数 (Laplace’s error function)相同，有时也叫做高斯分布 (Gaussian distribution)，而在浅显通俗的普及书里，也常被称为“钟形曲线”(bell-shaped curve)。

正态分布只有 K·皮尔逊四个参数中的两个——平均数和标准差，另外两个参数对称性偏度(symmetry)和峰度 (kurtosis)均为零。因此，一量知道了平均数和标准差这两个参数值，其他的一切也就一清二楚了。费歇尔曾指出，由一组数据得出的平均数与标准差的估计值就是他所说的充分估计量(sufficient estimator)，因为这两个参数值已经把这些数据中所有的信息都包括在内了。

例如，有两个重要指标服从正态分布，如果你正打算得出这样一个正态分布的那两个参数，那么你只需要收集大约50 个测量值就足够了。（为什么是50呢？）

到了 1934 年，中心极限定理(组)终于不再是猜想了，一个科学家必须要做的只是要证明林德伯格·利维条件(Lindeberg-Lévy Conditions) 成立，那么中心极限定理就成立，于是，他就可以随意地把正态分布设为一个合适的模型。

第 10 章拟合优度检验

混沌理论与拟合优度

一个固定不变的确定性公式生成的数字有可能看上去是一个具有随机性的模型

皮尔逊的假使优度检验

皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验“(goodness of fit test)。

通过观测值与预测值的比较，皮尔逊构造出一种能对拟合优度进行检验的统计量，并称之为“χ2 拟合优度检验”(chi-square goodness of fit test)。之所以用希腊字母χ(读作“kai”)，是因为这个检验统计量的分布属于一组偏斜分布，而他称这组偏斜分布为χ家族(chi family)。实际上，这个检验统计量很像χ的平方，因此命名为“χ2”。在费歇尔看来，既然是一个统计量，就会服从一种概率分布。K·皮尔逊证明了无论用哪一种类型的数据， χ2 拟合优度检验都服从相同的分布。也就是说，他能列出这个统计量的概率分布表。每一个检验都能用到同样的那套表。 χ2 拟合优度检验只有一个参数，费歇尔称之为“自由度”。费歇尔在 1922 年的那篇论文里，首次批评了皮尔逊的研究，指出在比较两种比例时，皮尔逊得出的那个参数值是错误的。

但是，没有任何理由只因为皮尔逊理论上的一个很小的错误，就贬低他的这项伟大成就。皮尔逊的拟合优度检验是现代统计分析中一个重要组成部分的先驱，这个重要组成就是“假设检验”(hypothesis testing)或“显著性检验” (significance testing)，它允许分析人员提出用来模拟现实的两种(或多种)不一致的数学模型，然后利用数据来放弃其中的一个。假设检验应用得如此广泛，以至于很多科学家认为这是他们唯一能用的统计方法。

检验女士是否真能品尝出茶的区别

假设检验(或者说显著性检验)是一种正规的统计方法，是在“待检验的假设为真”的假设前提下，用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时，我们得出原假设不成立的结论。重要的一点是，假设检验提供了一种拒绝某个假设的工具。上述例子中，待检验的假设是:那位女士只是凭猜测。假设检验的目的不是让我们接受个假设，即使与那个假设有关的概率非常高也不能接受

费歇尔对 P 值的运用

现在运用的显著性检验方法，其中大部分都是费歇尔构造出来的。他把判定具有显著性的那个概率，称为“P 值” (P-value)。

J·奈曼的数学教育

第11章假设检验

为了区别被用来计算费歇尔 P 值的假设与其它可能的一个或多个假设，奈曼和 E·皮尔逊把被检验的假设称为“零假设”(null hypothesis)，称其它可能的假设为“备择假设”(alternative hypothesis)。在他们的理论公式中，计算 P 值是为了检验零假设，而检验的效力则是指在备择假设为真的条件下 P 值的表现效果。

概率的频数定义

1872 年，英国哲学家约翰·维恩(John Venn) 出了一个数学概率的公式。这个公式使得概率在现实生活中有了含义。他把一个重要的概率定理转了一个方向，这个定理就是大数定律(law of large numbers)。大数定律指出，如果事件有给定的概率(比如掷一个骰子，得到六点这一事件的概率是六分之一)，而且如果我们重复地进行相同的试验时，该事件发生的次数的比率就会越来越接近这个概率值。

第 12 章置信诡计

如果我们不能够说某个估计值是绝对准确的，那么我们还有没有办法可以说这个估计值与参数的真值之间有多接近呢?这个问题的答案在于使用区间估计(interval estimate)。

点估计(point estimate)是一个单一的数字。

参考资料

《女士品茶》

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn

第1章 女士品茶

第2章 偏斜分布

第 3 章 可爱的戈塞特先生

第 4 章 在“垃圾堆”中寻觅

第5章 收成变动研究