【6.2】--books--深入浅出统计学

作者:Dawn Griffiths

一、信息图形化

见专题:统计表与统计图

二、集中趋势的度量

见专题 :集中趋势的度量

三、分散性与变异性的度量(强大的“距”)

案例: 球员得分

详见专题: 变异程度和分布形态的统计指标

四、概率计算(把握机会)

概率是度量某事发生几率的一种数量指标。

n(A) 发生事件A的可能数目 n(S) 所有可能结果的数目 P(A) 发生时间A的概率 P(A) = n(A)/n(S)

S被称为概率空间,或称样本空间,是表示所有可能结果的一种简便的表示法。 可能发生的事件都是S的子集。

对立事件 P(A’) = 1 - P(A)

互斥时间与相交事件 如果两个事件是互斥事件,则只有其中一个事件会发生。 如果两个事件相交,则这两个事件有可能同时发生。

条件概率 P(A|B) 事件B为已知条件的事件A的概率 P(A|B) = P(A∩B)/P(B)

贝叶斯定理 P(A∩B) = P(A)*P(B|A) P(B) = P(A)P(B|A) + P(A’)P(B|A’) P(A|B) = P(A)*P(B|A)/(P(A)P(B|A) + P(A’)P(B|A’))

独立事件 P(A|B) = P(A∩B)/P(B) 如果A和B是独立事件,则P(A|B) 与P(A)相同,即对于独立事件来说: P(A) = P(A ∩ B)/P(B)

案例分析: 1.参加游泳班和瑜伽班相关还是独立?

调查了96个人,问他们是否参见游泳班还是瑜伽班。在这96个人中,有32个人参加了瑜伽班,有72个人参加了游泳班。有24个人参加了两个班。

分析: 96个人中有32个人上瑜伽班,因此: P(瑜伽) = 13 72个人参加了游泳班,因此: P(游泳) = 34 24个人都上,因此: P(瑜伽 ∩ 游泳) = 14 P(瑜伽) * P(游泳) = 13 * 34 = 14 由于这个结果灯油P(瑜伽 ∩ 游泳) ,于是我们知道两个班级是相互独立的。

五、离散概率分布的运用(善用期望)

案例:老虎机

组合 柠檬 樱桃 美元/樱桃 美元
收益 -$1 $4 $9 $14 $19
概率 0.977 0.008 0.008 0.006 0.001

在推算老虎机概率时,设计了每个赢局(或赔局)的概率,你计算了一个随机变量的概率分布。随机变量是一个可以等于一系列数值的变量,而这一系列数值中的每一个数都与一个特定概率相关。

这里的变量具有离散性,即该变量只能取确定数值。 E(x) = ∑xP(X=x)

E(X) = (-1 * 0.9777) + (4*0.008)+ (9 *0.008)+ (14*0.006)+ (19*0.001) =-0.77

方差与概率分布 Var(X) = E(X - µ)2 Var(X) = (-1+0.77)2 *0.9777 +… =2.6971

σ = √Var(X) = 1.642

线性变换的通用公式 E(aX +b) = aE(X) +b Var(aX +b) = a2Var(X)

E(aX +bY) = aE(X) +bE(Y)

六、排列与组合(排序,排位,排)

案例: 马赛

略 ()

七、几何分布、二项分布及泊松分布 (坚持离散)

见分布专题

八、正态分布的运用(保持正态)

见分布专题

九、再谈正态分布的应用(超越正态)

见分布专题

十、统计抽样的运用 (抽取样本)

总体:准备对其进行测量、研究或分析的整个群体,可以是人,得分。。 普查:对总体进行研究或调查 样本:从总体中选取的一部分对象

抽样方法

如何设计样本

确定目标总体 确定抽样单位 确定抽样空间 需要列出一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或编个号。这张表被称为抽样空间,基本上,你可以从这张表中选取样本。

## 无偏样本 可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身做出判断。 偏倚样本 无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。

## 简单的随机抽样 重复抽样与不重复抽样

分层抽样 将通体分割为几个相似的组。

用哪个算式作为估计量

我们不使用样本数据的方差,而是其他方式评估总体的方差。如果样本大小为n,可以用下列算式评估总体方差:

σ2= ∑(x-平均数)2 /(n-1)

如果是要用样本评估总体方差,则需哟啊除以n-1。只有在需要计算一组确切数值的方差时,才除以n

概率和比例的互有关系

假设你有一个总体,需要求其成功比例。为此,你可用成功的数目除以总体的大小。 现在,假设你想计算从总体重随机选取一个成功事件的概率。为此,你可用总体的成功数目除以总体的大小。可以看出,你计算成功概率的方法和计算成功比例的方法完全一样。 我们可以用字母p代表总体的成功概率,我们也能方便地用p代表比例–二者数值相同。 p = probalility(概率) = proportion (比例)

抽样分布

考虑到从同一个总体中取得的所有大小为n的可能样本,由这些样本的比例形成一个分部,这就是“比例的抽样分布”。我们用Ps代表样本比例随机变量。

每一大盒糖球其实就是就从糖球总体中取出的一个样本。每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小。 如果用随机变量X代表样本中的红色糖球的数目,则 X ~ B(n,p),其中n= 100, p = 0.25 样本中的红色糖球的比例取决于X – 样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记为Ps,且 Ps = X/n 。

E(Ps) = E(X/n) = E(X)/n = np /n = p Var(Ps) = Var(X/n) = Var(X)/n2 = npq/n2 = pq/n

n越大,比例标准误差越小。也就是说,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。

Ps符合正态分布

当n很大时,Ps的分布接近正态分布。所谓“很大”是指大于30。n越大,Ps的分布越接近正态分布。 Ps ~ N(p, pq/n)

Ps需要进行连续性修正

每个样本的“成功数目”都是离散的。由于使用“成功数目”计算比例,因此在用正态分布计算概率时,要进行连续性修正。 连续性修正 = ±(1/2)/n = ±1/2n 如果用正态分布近似计算Ps的概率,一定要用±1/2n进行连续性修正;连续性修正的确切数值取决于数值n

案例1 (比例的抽象样分布)

糖球总体的 25%为红色。在一盒装有100粒糖球的包装盒中,至少有40%红色糖球的概率有多大? Ps ~ N(p,pq/n),其中p = 0.25, q= 0.75,且n =100,得到Ps ~ N(0.25,0.001875) P(Ps ≥ 0.4) = P(Ps>0.4 - 1/(2*100)) = P(Ps>0.0395) #需要矫正 z = (0.0395-0.25)/√(0.001875) = 3.35 P(Z>z) = 1- P(Z<3.35)= 1-0.9996 = 0.0004

案例2 (均值的抽样分布)

如果考虑同一个总体中所有大小为n的可能样本,然后用这些样本的均值形成分布,则该分布为“均值的抽样分布”,我们用X(平均) 表示样本均值的随机变量。

对总体的统计,每一个小包装袋里的糖球数目均值为10,方差为1。一个顾客买了30袋糖果,平均数目只有8.5的概率? 分析: 我们已知总体的均值和方差,并用µ和σ2表示,一个包装袋中的糖球数量可以用X表示。 随机选择的每一袋糖球都是X的一个独立观察结果,因此,每一袋糖球都符合相同的分布。即,如果有Xi代表随机选择的一袋糖球中的糖球数量,则么个Xi的期望都是µ,方差都是σ2。每一个Xi的期望都是µ,方差都是σ2。 我们可以用 X平均 表示这N袋糖球的容量均值, X平均 的数值取决于n袋糖球中的每一袋糖球的容量,计算时,要将所有的糖球的数量加起来,再除以n E(X平均) = µ

Var(X平均) = Var( (X1+X2+X3+..+Xn)/n ) = Var(1/n X1) + .. + Var(1/n Xn) =1/n2 *(σ2 +… + σ2) = σ2 /n

如果 X ~ N(µ, σ2),则 X(平均) ~ N(µ, σ2 /n) 当n很大时,X(平均) 依然可以用正态分布近似

现在的情况是,我们知道总体的均值和方差,但却不知道总体的分布。不过,没关系,由于样本大小为30,我们还是能够用正态分布求 X(平均) 的概率。这叫做 “中心极限定理”。

中心极限定理

如果从一个非正态总体X中取出一个样本,且样本很大,则 X(平均) 的分布近似为正态分布。如果总体的均值和方差为 µ和 σ2,且n很大,例如大于30,则: X(平均) ~ N(µ, σ2 /n) 是不是觉得很熟悉?这和X符合正态分布时的情况是一样的。唯一的差别是,当X符合正态分布时,样本的大小无所谓。

根据中心极限定理,如果X的样本很大,则 X(平均) 的分布近似为正态分布。

使用中心极限定理

二项分布 假设你有一个总体,用X~B(n,p)表示,其中n大于30。如前所述, µ = np, σ2 =npq。 根据中心极限定理,在这种情况下,X(平均) ~ N(µ, σ2 /n)。为了求出X(平均)的分布,我们代入总体的数值,即代入µ = np, σ2 = pq,得到: X(平均) ~ N(np, pq)

泊松分布 现在,假设总体符合泊松分布X~Po(λ),n还是大于30。对于泊松分布来说,µ = σ2 = λ。 和以前一样,我们可以借助正态分布求出σ2的概率。如果将以上总体参数代入 X(平均) ~ N(µ, σ2 /n),得到: X(平均) ~ N(λ, λ/n)

中心极限定理求出的概率与样本的均值有关,而与样本中的数值无关。因此不需要进行任何连续性修正。

十二、置信区间的构建 (自信地猜测)

选择区间上下限是为了让“总体均值介于a和b之间”这一结果具有特定概率。例如:你可能希望通过选择a和b,使得该区间中包含总体均值的几率为95%。也就是说,所选择的a和b使得:

P(a < µ <b) = 0.95 我们用(a,b)表示这个区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有的可信程度,因此,(a,b)被称为置信区间。

求置信区间四步骤

1.选择总体统计量 (希望用于构建置信区间的总体统计量) 2.求出其抽样分布 3.决定置信水平 置信水平越高,区间越宽,置信区间包含总体的统计量的几率越大。 如果把置信区间弄得太宽,置信区间就会失去意义。

4.求出置信上下限 X(平均) - 0.98 <µ < X(平均) + 0.98

置信区间简便算法

总体统计量 通体分布 条件 置信区间
µ 正态 σ2 已知

n可大可小

X(平均) 为样本均值

(X(平均) - c *σ /√n,X(平均) + c *σ /√n)
µ 非正态 σ2 已知

n很大(至少30)

X(平均) 为样本均值

(X(平均) - c *σ /√n,X(平均) + c *σ /√n)
µ 正态或非正态 σ2 未知

n很大(至少30)

X(平均) 为样本均值

s2  为样本方差

(X(平均) - c *s /√n,X(平均) + c *s /√n)
p 二项 n很大

Ps为样本比例

qs 等于 1- Ps

 (Ps - c *s/(Ps * qs/n),X(平均) +c *s/(Ps * qs/n))
一般情况下,置信区间的计算方式为: 统计量 ±(误差范围) 误差范围等 = c * (统计量的标准差) c为根据置信水平查表得到的值

案例

糖果公司抽取了一个具有代表性的样本,共10颗,然后称了每一粒糖球的重量。这个样本的 X(平均) =0.5 盎司,s2 = 0.09。 我们如何求出置信区间?

当抽样样本很大时,正态分布是求解置信区间的理想分布– 能得出精确的结果,且与总体本身是否是正态分布无关。现在的情况是–尽管X本身符合正态分布, X(平均) 却不符合。

当总体符合正态分布,σ2未知,且可供支配的样本很小时,X(平均) 符合t分布–这种分布正好可以用来处理我们面临的问题。

t分布是外形光滑、堆成的曲线,确切形状取决于样本的大小。当样本很大时,t分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数–v。v = n-1。n为样本的大小,v被称为自由度。

“T符合t分布且自由度为v”的简明表示方法为: T ~ t(v) t分布的使用方法与正态分布相似 – 先讲概率区间的上下限转化为标准分,然后用概率表求出所需要的结果。 X(平均) 的期望为 µ,标准差为 σ/n。由于需要用s评估σ的数值,于是t分布的标准分的算式如下: T ~ (X(平均) - µ)/(s/√n)

T ~ (X(平均) - µ)/(s/√n) = (X(平均) - µ)/(√(0.09/10)) = (X(平均) - µ)/0.0949 t分布的置信上下限的算法雷士与正态分布的算法,即可通过下式进行计算: (X(平均) - t*s/√n,X(平均) + t*s/√n ), 其中P(-t ≤ T ≤ t) = 0.95

在用小样本估计总体方差时,t分布更精确。 基于小样本评估σ2有一个问题,即可能无法精确地反映总体方差的真实值。也就是说,我们需要让区间变宽,以便在置信区间中留出一些误差空间。 t分布的形状随着v值发生变化,由于考虑了样本的大小,即使σ2的评估精确度存在各种足以让人有所差距的不确定性,t分布也能忽略不计。当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,这使得它更适合用于小样本。

案例

糖果公司发现他们的装糖机出问题了。他们抽取了30台机器作为样本,发现故障次数均值为15。请为每月故障次数构建一个99%的置信区间。

每月故障次数符合泊松分布模型,由于有30台机器,我们可以用(X(平均) -cs√n ,X(平均) +cs√n)求解置信区间。我们需要求99%的置信区间,于是c = 2.58。泊松分布的期望和方差都等于λ,因此 X(平均) = 15且s2 = 15。 置信区间计算如下:

(X(平均) -cs√n ,X(平均) +cs√n) = (15 - 2.58 *√(15/30), 15 + 2.58 *√(15/30))= (13.176,16.824)

十三、假设检验的运用(研究证据)

假设检验六步骤

1.确定要进行检验的假设 2.选择检验统计量 3.确定用于做决策的拒绝域 4.求出检验统计量的p值 5.查看样本结果是否位于拒绝域内 6.作出决策

案例一

医药公司承诺某种药能治愈90%。 医生随机抽取了15位患者,11位有效,4位无效,到底有效么? 分析: 由于实验次数一定,且医生关注的是治愈人数。因此,治愈人数符合二项分布。 如果用X表示治愈人数,则 X ~B(15,0.9)

1.确定假设 根据制药公司的断言,治愈90%的患者。除非我们有充足证据进行反驳,否则就要接受这个结论。 我们所检验的这个断言被称为原假设,以Ho表示,除非我们有充足证据进行反驳,否则就要接受这个假设。

医生认为制药公司对疗效的断言过于理想,反而显得不真实–她认为治愈率不会达到90%,低于90%的可能性更大。 与原假设队里的断言被称为备择假设,用H1表示。如果有足够的证据拒绝Ho,我们就接受H1。

2.选择检验统计量 我们根据原假设Ho选择检验统计量 如果用X表示治愈人数,则 X ~B(15,0.9)

3.确定拒绝域 我们需要通过某种方法指出何时能够合理地拒绝原假设–指定一个拒绝域即可实现这一目的。如果治愈人数位于拒绝域以内,我们就说有足够的证据可以反驳原假设;如果治愈人数位于拒绝域以外,我们就承认没有足够的证据可以反驳原假设,并接受制药公司的断言。我们把拒绝域的分界点称为“c” – 临界点。

为求拒绝域,先定显著性水平 检验的显著性水平所量度的是一种愿望,即:希望在样本结果的不可能成都达到多大时,就拒绝原假设Ho。

假如,假设我们想以5%为显著性水平检验制药公司的断言,这说明我们选取的拒绝域应使得“治愈人数小于c”的概率小于0.05,即概率分布最低端的5%部分。

在构建检验的拒绝域时,还需要民百一件事:所构建的是单尾检验还是双尾检验。让我们看看这两者之间的差别,以及他们对拒绝域有什么影响。

单尾检验 单尾检验即检验的拒绝域落在可能的数据集的一侧,你选择检验水平–以α表示,然后确保拒绝域以相应的概率反映这个水平。尾部可以是可能数据集的左侧或右侧,具体用哪一侧取决于备择假设H1。 如果备择假设包含一个 <符号,则使用左尾,此时拒绝域位于数据的低端。 如果备择假设包含一个 >符号,则使用右尾,此时拒绝域位于数据的高端。

双尾检验 双尾检验即拒绝域一分为二位于数据集的两侧,你选择检验水平α,然后将拒绝域一分为二,并确保整个拒绝域以相应概率反映这个检验水平。两侧各占α/2。 判断是否需要使用双尾检验的方法是:查看备择假设H1,如果H1包含一个不等号≠,则需要使用双尾检验,这是因为你要找出参数的变化,而不是增减。

4.求出p值 p值即某个小于或者等于拒绝域方向上的一个样本数值的概率。具体求法是利用样本进行计算,然后判定样本结果是否落在假设检验的拒绝域以内。

由于检验的显著性水平为5%,说明说如P(X ≤ 11)小于0.05,则数值11落在拒绝域中,这时我们可以拒绝原假设。 P(X ≤ 11) = 1 - P(X ≥12) = 1 - (15C12*0.13*0.912 + ….) =0.0555

5.样本结果位于拒绝域中吗? 我们的拒绝域位于概率分布的左尾,所用显著性水平为5%。这意味着,如果p值小于0.05,就能拒绝原假设。

6.做出决策 因为假设检验的P值落在检验的拒绝域以外,因此,没有充分的证据可以拒绝原假设。

如果样本来那个增加:80个治愈,20个未治愈

样本中有100名患者,而按照制药公司的说法,成功比例为0.9。这就是说,成功数目服从二项分布,其中n = 100,p =0.9 X ~ B(100,0.9)

由于n很大,且np和nq都大于5,我们就用X ~N(np,npq)作为检验统计量。其中X为陈宫治愈的患者的数目。 即能够用 X ~ N(100,9) 经过标准化,得到: Z= (X -90)/3

显著水平设为5%,由于临界值c等于令P(Z <c) = 0.05的数值。在概率表中查找0.05,得到c的数值为-1.64,即: P(Z < - 1.64) = 0.05

可能出现错误

即使证据有力,我们也无法绝对保证制药公司的断言是错误的。 我们可以通过假设来检验证据,可以规定在确定性达到何种程度就拒绝原假设,但这些并不能完全保证我们的决策是正确的。

在进行假设检验的时候,你只能根据手头拥有的证据作决策,证据来源于样本,因此,如果样本有偏,那么你就有可能根据有偏的数据做出错误的决策。 有人把假设检验称为显著性检验,这是因为你是按照某种显著性水平进行检验的。

第一类错误: 错误地拒绝真原假设 第二类错误:错误地接受原假设

发生第一类错误的概率等于你的结果位于拒绝域以内的概率。由于拒绝域由检验水平决定,说明如果检验的显著性水平为α ,则发生第一类错误的概率必须也等于α。 P(第一类错误) = α

第二类错误 当原假设实际为错误时,如果接受了原假设,则发生第二类错误。 P(第二类错误) = β

第二类错误的计算

第二类错误即在备择假设为真时却接受原假设所引起的错误,只有在H1规定了唯一特定值时我们才能计算这个错误,因此让我们使用备择假设 P = 0.8,因为这个值是医生样本成功比例。 H0 :P = 0.9 H1:P =0.8 H1 必须规定一个确切的P值,只有这样我们才能利用它计算概率。 我们需要求出位于假设检验拒绝域以外的X值。 (X -90)/3 ≥ -1.64 X ≥ 85.08 因此,如果治愈人数为85.08或更多,我们就会接受原假设。

最后,我们需要假设H1为真,算出 P(X ≥ 85.08),我们就能算出H1实际上为真的情况下接受原假设的概率。 由于我们使用正态分布近似X,于是需要使用的概率分布为X~ N(np,npq),其中n = 100,p=0.8,得到 X ~ N(80,16)。 z = (85.08 -80)/√16 =1.27

P(Z≥1.27) = 1 - P(Z<1.27) = 1 - 0.8980 = 0.102 所以第二类错误的概率是 0.102

认识功效

假设检验的功效也是一种概率 – 在H0为假的情况下拒绝H0的概率。也就是说,这是我们做出正确决策二拒绝H0的概率。 只要求出P(第二类错误),再计算假设家宴的功效就容易了。 功效 = 1 - β

案例

制药公司和他们的止咳糖浆制造厂发生了争议,厂方说注入药瓶的糖浆量符合正态分布 X~ N(355,25),其中X是量得的每瓶糖浆容量,单位mL。制药公司用大样本进行了检验,发现100瓶糖浆的平均容量为365.5mL。请以1%的显著性水平检验厂方给出的均值假设,与此相对的另一说法是每瓶糖浆的容量均值大于355mL。 解析: 第一步:确定进行检验的假设 H0: µ =355 H1: µ > 355 第二步:选择检验统计量 X(平均) ~ N(µ,σ2/n)。因此根据原假设得知:X(平均) ~ N(355,25100) Z = (X(平均) - 355)/√0.25 第三步:决定用于做决策的拒绝域。 备择假设为µ> 355,即拒绝域位于右尾。我们想以1%的显著性水平进行检验,因此拒绝域由P(Z>c) = 0.01决定,利用概率表,得到:c = 2.32。即拒绝域由Z >2.32确定。 第四步:求假设检验的p值。 Z = (X(平均) - 355)/√0.25 = (256.5-355)/0.5 = 3 由于拒绝域位于右尾,因此检验的p值由P(Z>3)决定,查概率表,得到:P值 = 0.0013 第五步:查看样本的结果是否位于拒绝域以内。 第六步:做出决策。 由于样本结果位于拒绝域以内,有充分的理由拒绝原假设,我们可以接受备择假设:µ > 355ml。

十四、X2分布

案例:老虎机有人作弊

老虎机期望概率分布

X -2 23 48 73 98
P(X=x) 0.977 0.008 0.008 0.006 0.001
实际的概率

X -2 23 48 73 98
频数 965 10 9 9  7

X2分布检验评估差异

有一种概率分布正符合我们的心意–X2分布,X读作“卡”,是希腊字母chi的大写。这种分布通过一个检验统计量来比较期望结果与实际结果之间的差别,然后得出观察频数极值的发生概率。

X2 = Σ(O-E)2/E 其中O代表观察频数,E代表期望频数。 对于概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望的频数,然后将所有结果相加。

X2 = (965-977)2 +… = 38.272 如果X2值很小,说明观察频数和期望频数之间的差别不显著;X2越大,差别越显著。

检验统计量代表什么?

检验统计量X2提供了一种对观察频数和期望频数之间的差异进行度量的办法。 X2的数值越小,观察频数和期望频数之间的总差值越小。

X2大到什么程度才算上显著呢?–在什么情况下才能十分肯定地判断老虎机除了问题–而且这个问题已经超出了“合理偶然性”的范围。

为此,我们需要讲讲X2分布。

X2分布的两个主要用途

X2概率分布住主要用于检验试验结果与期望结果之间何时存在显著差别,该概率分布使用前面讲到的检验统计量 X2进行检验。

X2分布有两个主要用途: 第一是用于检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。例如,可以用来检验老虎机收益的观察频率与我们所期望的分布的吻合程度。 X2分布的另一个用途就是检验两个变量的独立性,通过这个方法可以检查变量之间是否存在某种关联。

X2分布用到一个参数–希腊字母v,读作“钮”,让我们看看v如何影响概率分布的形状。 当v等于1或2 当v等于1或2时,X2分布为一条先高后低的平滑曲线,其形状像一个倒立的J。检验统计量等于较小数值的概率远远高于等于较大数值的概率,这就是说,观察频数有可能接近期望频数。 当v大于2 当v大于2时,X2分布的形状发生改变 –随着X2递增,图形先低,后高,再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。 X2 ~ X2(v)

v表示自由度数目,用于计算检验统计量X2的独立变量的数目,也可以说是独立信息段的数目。

为我那个频数综合与观察频数综合必须相同,这就是说。我们进行计算的时候受到1个限制。

老虎机的案例中,为了计算出检验统计量X2,我们必须计算5个独立信息,同时受到1个限制。于是,自由度的计算结果为:v = 5 -1 = 4

v = (组数) - (限制数)

显著性是多少? 用X2分布进行的检验为单尾检验,右尾被作为拒绝域。于是,通过查看检验统计量是否位于右尾的拒绝域以内,你就可以判定根据期望分布得出的结果的可能性。 如果用显著性水平α进行检验,则可以写作: X2 α(v)

使用X2概率表

X2 5%(4) = 9.49 38.272 >9.49,因此X2位于拒绝域以内。 X2的数值位于拒绝域以内,于是我们拒绝假设,即,我们有充足的证据拒绝上述“老虎机每局收益符合如下概率分布”这个原假设。

这种假设检验称为拟合优度检验–它检验观察频数是否和假设的概率分布相吻合。若你有一组数据,并希望这组数据符合某种分布,为了看看这组数据是否符合这种分布,则可以用拟合优度检验。

自由度v的计算

分布 条件 v
二项分布 已知p

未知p,必须通过观察频数进行估计

v=n-1

v = n-2

泊松分布 已知λ

未知λ,必须通过观察频数进行估计

v = n-1

v =n-2

正态分布 已知µ, σ2

未知µ, σ2,必须通过观察频数进行估计

 v =n-1

v =n-3

案例二:

有一位负责二十一点赌桌的庄家赔付的钱高于合理值。

庄家A 庄家B 庄家C
43 49 22
8 2 5
47 44 30
需要找到某种方法,检验赌局结果是否取决于坐庄赌局的庄家。

X2分布用来检验独立性

独立性检验的过程和拟合优度的检验过程相同:设立一个假设,用观察频数和期望频数计算X2检验统计量,然后查看结果是否落在拒绝域以内。

首先,算出赌局结果和庄家总频数以及各项的总和,例如可列出下表,这叫做列联表。

 庄家A 庄家B 庄家C 合计
43 49 22 114
8 2 5 15
47 44 30 121
合计 98 95 57  250
P(赢) = 赢局合计/总和 P(A) = 合计A/总和 庄家和赌局相互独立,那么,通过将两种概率相乘,可以求出庄家A坐庄时出现赢局的概率 P(A庄赢局) = P(赢) * P(A)

A庄赢局期望频数 = 总和* P(A庄赢局)

特别行和特定列所形成的期望频数 = 行合计 * 列合计 /总和

X2 = Σ(O-E)2/E

计算自由度: 我们必须算出三位庄家的期望频数以及三种可能结果,于是期望频数为3*3 = 9 对于每一行每一列,我们实际上只需要计算两个期望频数。我们已经知道总频数是多少,因此可以选择第三个频数,使得所有频数相加等于正确的结果。也就是说,我们其实只需要计算其中4个期望频数,其余5个频数可以根据已知的总频数进行推导。 由于必须算出4个期望频数,于是自由度就等于这个数目 – 共需要计算4个独立信息;算出这些频数后,其余频数自然就知道了。即v =4 另一种得知自由度的方法是:我们总共需要计算9个数值,其中5个不用独立进行计算。用前面的公式可计算v = 9-5 = 4

第一步: 我们要检验赌局输赢结果是否独立于坐庄的庄家,于是: H0 : 赌局输赢结果和坐庄的庄家没事有关系 H1: 赌局输赢结果和坐庄的庄家有关系

第二步: 沃恩求出期望频数,并得出自由度为4.

第三步: 从概率表查出X2 1% (4) =13.28。因此拒绝域由 X2 >13.28决定。

第四步: 用期望频数算出了X2 = 5.004

第五步: 拒绝域由X2 >13.28给出,因此X2 位于拒绝域以外。

第六步: 由于X2 位于拒绝域以外,因此我们接受原假设:没有足够的证据证明赌局结果和庄家之间有关系。

十五、相关与回归(我的线条如何)

案例: 露天音乐会 预测天晴时数预测出音乐会听众人数

天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人) 22 33 30 42 38 49 42 55

数据类型探讨

单变量数据 考虑的是一个单一变量的频数或概率,例如,单变量数据可以描述赌场收益或新娘的体重,在这两种情况下,所描素的对象各只有一种。

二变量数据面面观 二变量给出两个变量数值,例如,对于同一场音乐会,或者对于同一个观察结果,二变量数据会同时给出预计天晴时数和音乐会听众人数。 其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或解释变量,另一个变量则称为因变量或反应变量。

求最佳拟合线公式

误差平方和Σ(y- yi)2 为最小的直线式,其中y = a +bx,从而可以得到a和b的最优值,进而得到最佳拟合线公式。 b= Σ(x- x平均)(y- y平均)/ Σ(x - x平均)2

直线y = a + bx 被称为回归线。

最小二乘法

最小二乘回归法是一种数学方法,可以用一条最佳拟合线将一组二变量数据拟合,通过将公式 y = a +bx 的一条直线与一组数值相拟合,使得误差平方和最小 – 即,使得实际数值与这些数值的估计值之间的差值最小。

相关系数

r = b * Sx / Sy
Sx = √(Σ(X - X平均)2)/(n-1)
Sy = √(Σ(Y - Y平均)2)/(n-1)

十六、尾声

2.分析剖析

适用于正态分布的经验法则

经验法则适用于符合正态分布的任何数据集。它表明:几乎所有的数据都位于距离均值三个标准差的范围内。

  • 大约68%的数值位于距离均值1个标准差的范围内;
  • 大约95%的数值位于距离均值2个标准差的范围内;
  • 大约99.7%的数值位于距离均值3个标准差的范围内;

适用于任何分布的切比雪夫定理

  • 至少75%的数值位于距离均值2个标准差的范围内;
  • 大约89%的数值位于距离均值2个标准差的范围内;
  • 大约94%的数值位于距离均值2个标准差的范围内;

3.试验

完全随机化设计

随机化区组设计

配对设计

PS:

参考资料:

《深入浅出统计学》

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学