[书]–深入浅出统计学

作者:Dawn Griffiths

一、信息图形化

软件可以将数据转化为图标,至于图标是否正确,则由人来确定。

1.“呆板”的饼图

“饼图”的作用是将数据划分为互有明显区别的几个组,或者叫做几个类。饼图为圆形,被划分为几个扇形块,每一块代表一个组(类)。扇形块的大小表示这类数据占总体的比例。扇形块越大,该组(类)的相对频繁程度越大。一个特定组中的对象数目称为频数。

在相对基本比例进行比较的时候,饼图有用。
当所有扇形块的大小相似时,饼图用处不大。

2.条形图

条形图中的每一个长方形代表一个特定类,长方形的长度代表某种数值。长方形越长,数值越大。所有长方形的宽度都相等,这样更容易进行比较。
对于各个类的大小比较的情况下,条形图是理想的图形,更精确。

使用百分数标度
在设计以百分数为表现内容的图形时,请考虑这样一条黄金定律:设法指出频数–伙食将频数标在图形中间,或是标在图形旁边。

使用频数标度
使用频数标度代替百分数标度,这样大家更容易看到确切的频数,进而对数值进行比较。
(不以0为起点的标度可以让数据给人不同的第一印象)

堆积条形图
针对每种游戏,用一条长方形代表这类游戏的网易玩家频数,用另一条长方形表示这类有些的不满意玩家频数。当你想比较频数时,这种图很有用,但通过这张图很难看出比例和百分数。

分段条形图
若要体现频数和百分数,可以试试“分段条形图”。
这种图用一整段长方形代表一个类,但可以按比例把证一整段长方形分割为几个小段。长方形的整体长度反映出整体频数。

类别数据和数值型数据
类别数据(定型数据)
数据被划分为各种类别,用以描述某类的性质或特征。(切莫将数据值理解为数字)
数值型数据(定量数据)
数值型数据不同,它所设计的是数字。数值型数据中的数值具有数字的意义,但还涉及计量或计数。

3.直方图

直方图与条形图外观相似,但又两个重要的却别:
a.每个长方形的面积与频数成比例;
b.图上的长方形之间没有间隔。

a.直方图的面积面积代表频数
b.频数密度都指分组数据中的频数的密集度。 = 频数/组距
c.直方图是一种专门用来体现分组数据的图形。它看起来像条形图,但每条长方形的高度等于频数密度–而不是频数。
d.绘制直方图时,每个长方形的宽度与其分组宽度(’组距’)成正比例。长方形按照连续的数字标度绘制。
e.直方图中的每个组的频数通过长方形面积求出。
f.直方图的长方形之间没有间隔。

4.累积频数图

累积频数–某个特定值因为的频数之和
ECDF

5.折线图

能更好的体现数据趋势。
只用于展示数值型数据,不应用与类别数据。原因是,对类别数据进行比较是有意义,但为其绘制趋势线却没有意义。

二、集中趋势的度量

案例:健身数据

1.均值–平均数的一般度量

µ = ∑x /n

处理频数
µ = ∑fx /∑f

异常值:
与其他数据格格不入的极高或极低的数值

2.中位数

当偏斜数据和异常值使均值产生误导时,我们就需要用其他方式表示典型值。

3.众数

除了均值和中位数,还有第三种平均数,称为众数。
众数是一批数字中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。
如果一批数据有两个众数,则我们说这种数据是双峰数据。

三、分散性与变异性的度量(强大的“距”)

案例: 球员得分

亮度全距

通过计算全距(也叫极差),我们可以轻易获知数据分散的情况。全距指出数据的扩展范围,有点儿像测量数据的宽度。全距的计算方法是:用数据集中的最大数减去数据集中的最小数。

最小值成为下界,最大值成为上界。

全距能量度数值的展开宽度,但很难得出数据的真实分布形态。
而且很容易受异常值的影响。

迷你距
构建迷你距的一个办法是:仅适用数据中心周边的数值。为此,首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一的原有数据。将整批数据一分为四作用的几个数值就是所谓的四分位数。

最小的四分位数(Q1)称为下四分位数或第一四分位数,
最大的四分位数(Q3)称为上四分位数或第三四。
中间的四分位数(Q2)就是中位数,因为它将数据一分为二。
每两个四分位数之间的距被陈为四分位距(IQR)。

四分位距 = 上四分位数 – 下四分数

四分位距的优点是:与全距相比,较少手到异常值的影响。
由于四分位距仅用了处于中心部位的50%的数据,因此,无论异常值是极大值还是极小值,均被排除在外。异常值不可能处于中心部位–这意味着,数据中的所有异常值都被有效的剔除了。

百分位数

如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。在上例中,我们的数据被分成10份,因此起分割作用的数值被称为十分位数。
我们可以用百分位数构建一个新的距,称为百分位距。

第十百分位数就是位于数据范围10%处的数值。通知,第k百分位数就是位于数据范围K%处的数值,常用Pk表示。

用箱线图绘制种“距”

箱线图显示数据的全距,四分位距以及中位数。

方差
方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
方差 = ∑(x-µ)2 /n
标准差 = √方差
σ = √方差

方差速算法:
方差 = ∑(x)2 /n -(µ)2

使用标准分比较不同数据集中的数值
使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法。

z= (x-µ)/σ

标准分释义
标准分为我们提供了一种对不同数据集的数据进行比较的方法,这些不同数据集的均值和标准差甚至各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。

距离均值若干个标准差
通过z分将数据集转化为一个均值为0,标准差为1的通用分布。如果一个数值在距离均值1个标准差的范围内,我们就知道,数值的标准分在-1到1之间。

四、概率计算(把握机会)

概率是度量某事发生几率的一种数量指标。

n(A) 发生事件A的可能数目
n(S) 所有可能结果的数目
P(A) 发生时间A的概率
P(A) = n(A)/n(S)

S被称为概率空间,或称样本空间,是表示所有可能结果的一种简便的表示法。
可能发生的事件都是S的子集。

对立事件
P(A’) = 1 – P(A)

互斥时间与相交事件
如果两个事件是互斥事件,则只有其中一个事件会发生。
如果两个事件相交,则这两个事件有可能同时发生。

条件概率
P(A|B) 事件B为已知条件的事件A的概率
P(A|B) = P(A∩B)/P(B)

贝叶斯定理
P(A∩B) = P(A)*P(B|A)
P(B) = P(A)**P(B|A) + P(A’)**P(B|A’)
P(A|B) = P(A)*P(B|A)/(P(A)**P(B|A) + P(A’)**P(B|A’))

独立事件
P(A|B) = P(A∩B)/P(B)
如果A和B是独立事件,则P(A|B) 与P(A)相同,即对于独立事件来说:
P(A) = P(A ∩ B)/P(B)

案例分析:
1.参加游泳班和瑜伽班相关还是独立?

调查了96个人,问他们是否参见游泳班还是瑜伽班。在这96个人中,有32个人参加了瑜伽班,有72个人参加了游泳班。有24个人参加了两个班。

分析:
96个人中有32个人上瑜伽班,因此:
P(瑜伽) = 1/3
72个人参加了游泳班,因此:
P(游泳) = 3/4
24个人都上,因此:
P(瑜伽 ∩ 游泳) = 1/4
P(瑜伽) * P(游泳) = 1/3 * 3/4 = 1/4
由于这个结果灯油P(瑜伽 ∩ 游泳) ,于是我们知道两个班级是相互独立的。

## 五、离散概率分布的运用(善用期望)

案例:老虎机

组合 柠檬 樱桃 美元/樱桃 美元
收益 -$1 $4 $9 $14 $19
概率 0.977 0.008 0.008 0.006 0.001

在推算老虎机概率时,设计了每个赢局(或赔局)的概率,你计算了一个随机变量的概率分布。随机变量是一个可以等于一系列数值的变量,而这一系列数值中的每一个数都与一个特定概率相关。

这里的变量具有离散性,即该变量只能取确定数值。
E(x) = ∑xP(X=x)

E(X) = (-1 * 0.9777) + (4*0.008)+ (9 *0.008)+ (14*0.006)+ (19*0.001)
=-0.77

方差与概率分布
Var(X) = E(X – µ)2
Var(X) = (-1+0.77)2 *0.9777 +…
=2.6971

σ = √Var(X) = 1.642

线性变换的通用公式
E(aX +b) = aE(X) +b
Var(aX +b) = a2Var(X)

E(aX +bY) = aE(X) +bE(Y)

## 六、排列与组合(排序,排位,排)
案例:
马赛


()

## 七、几何分布、二项分布及泊松分布 (坚持离散)

### 1. 几何分布
案例:查德不出事故顺利滑雪至坡底的概率是0.2,她打算不断尝试,在取得第一次成功后,他讲停止滑雪,

如果用p代表单词试滑的成功概率,则失败的概率为1-p,我们将次概率称为q,于是可以用下试计算任何具有这一性质的概率:

r-1次失败,1次成功的
P(X =r) = q(r-1)p #在第r次试验时取得第一次成功的概率
P(X >r) = qr #需要试验r次以上才取得第一次成功的概率
P(X <=r) = 1- qr #需要试验r次或不到r次即可取得第一次成功的概率

这个公式叫做概率的几何分布。

当r=1时,P(X=r)达到最大值,随着r增大,P(X=r)逐渐下降。注意,取得成功的概率在第一次试验时最大,也就是说,任何几何分布的众数都永远是1,因为1是具有最大概率的数。
虽然看似有违直觉,但是,可能性最大的情况却是:仅需尝试一次即可成功。

X ~ Geo(P),则:
E(X) = 1/p
Var(X) = E(X2) – E2(X) = q/p2

什么时候用几何分布
进行多次相互独立的试验时可使用几何分布,每一次试验都存在成功或失败的可能性,而你感兴趣的是为了取得第一次成功需要试验多少次?

### 2. 二项分布
案例:答对n个问题的概率

每道题答对的概率是p,则每道题的答错的概率为1-p,也就是q。答对n个问题中的r个问题的概率为:
P(X=r) = nCr * 0.25r * 0.75(n-r)
这类问题称为二项分布

X ~ B(n,p)
二项分布的形状取决于n,p

X ~ B(1,p)
E(x) = 0 *q +1* p = p
Var(X) = E(x2) – E(X)2 = p- p2 = pq

X ~ B(n,p)
E(x) =np
Var(X) = npq

### 3.泊松分布
案例:爆米花,发生损坏的平均次数是每周3.4次,下一周不发生损坏的概率是多少,发生3次损坏的概率是多少?

泊松分布包括以下条件:
1.单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里。
2.已知该区间内的事件平均发生次数(或者叫做发生率),且为有限次数。该事件平均发生次数通常用希腊字母 λ(lambda )表示。

我们用X表示给定区间内的事件发生次数,加入一个星期内的损坏次数。如果X符合泊松分布,且每个区间内平均发生 λ 次,或者说发生率为λ,则写作:
X ~ Po(λ)
在求给定区间发生r次世故的概率时,可以用如下公式进行计算:
P(X=r) = e-λ * λr /r!

例如,如果X ~ Po(2),则:
P(X=3) = e-2 * 2 3/3! = 0.180

E(X) = λ
Var(X) = λ

泊松分布是何形状?
泊松分布的形状是随着λ的数值发生变化。λ小,则分布向右偏斜,随着λ变大,分布逐渐变得对称。
如果λ是一个整数,则有两个众数,λ 和 λ-1,如果λ不是整数,则众数为λ

什么时候用泊松分布?
在遇到独立事件时(例如机器在给定区间内发生故障),若已知λ(即给定时间区间内的事件平均发生次数)且你感兴趣的是一个特定时间区间内的发生次数,这时可以用泊松分布。

如果对独立事件进行组合?
如果X ~ Po(λx) 且 Y ~ Po(λy),则:
X + Y ~ Po(λx + λy)

泊松分布与二项分布有何关系?
X ~ B(n,p),当n较大而p较小事,X则可以近似表示为:
X ~ Po(np)

## 八、正态分布的运用(保持正态)

离散数据由单个数值组成。
连续数据包含一个数据范围,这个范围内的任何一个数值都有可能发生。其数据常常用测量方法得到,而不是用计数方法得到。

对于离散分布来说,我们关心的是取得一个特定数值的概率,对于梁旭概率分布来说,我们关心的是取得一个特定范围的概率。

我们可以用概率密度函数来描述连续随机变量的概率分布。

概率密度函数f(x)是这样的一种函数:通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指示该概率分布的形状。

概率密度函数下方的总面积必须等于1

### 正态分布(高斯分布)
正态分布是连续数据的“理想”模型
如果一个连续速记变量X符合均值为µ,标准差为σ 的正态分布,则通常写作
X ~ N(µ,σ2)

µ指出曲线的中央位置,σ2指出分散性。在实践中,这意味着σ2越大,正态分布曲线越扁平,越宽。

正态概率计算三步法
1. 确定数据分布
2. 标准化为N(0,1)
概率表仅给出N(0,1)的概率
Z = X-µ/ σ
3.用方便易用的概率表查找概率

## 九、再谈正态分布的应用(超越正态)

案例:新郎与新娘的体重之和
综合体重依然是连续数据,而且,综合体重依然符合正态分布。

求出 X +Y的均值和方差,可以使用离散概率分布的相同计算公式,
即,如果:
X ~ N(µx,σx2) 且
Y ~ N(µx,σy2)
则:
X +Y ~ N(µ,σ2)
其中
µ = µx + µy
σ2 = σx2 + σy2
如果是X-Y
X +Y ~ N(µ,σ2)
其中
µ = µx – µy
σ2 = σx2 + σy2

aX +b ~ N(aµ+b,a2σ2)

### 何时用正态分布近似替代二项分布
如果 X ~ B(n,p),且np >5,nq>5 ,则可以用 X~ N(np,npq)近似取代二项分布。
(如果n>50,且p<0.1,则可以使用泊松分布近似替代二项分布)

案例: 12个问题,答对5个或5个以下的概率,其中每个问题只有两个备选答案。
X ~ B(12,0.5),则 P(X<6) = 0.0387
X ~ B(6,3),则P(X<6) =0.5
结果差别这么大,为什么?

如果用正态分布近似替代二项分布,则需要进行连续性修正,这才能保证得到的正确地结果。因为二项分布是离散分布,正态分布是连续分布。
解决办法:
离散数值6包含了从5.5到6.5之间的一个范围,因此,我们不应该计算P(X<6) ,而应该试着甲酸P(X<5.5) 这种调整被称为连续性修正。 修正的技巧: ≤ 型概率的求解 在计算P(X≤a)这种形式的概率时,关键是缺点所选择的范围中包含离散数值a。在一个连续标度上,离散数值a会增长到(a+0.5)。这就是说,如果使用正态分布求P(X≤a),实际上需要计算P(X≤a+0.5),以求出近似值,换句话说,你要增加一个额外的0.5 ≥ 型概率的求解 在计算P(X ≥ b)这种形式的概率时,关键是缺点所选择的范围中包含离散数值b。在一个连续标度上,离散数值b会减小到(b-0.5)。这就是说实际上需要计算P(X ≥ b – 0.5),以求出近似值,换句话说,你要减去一个额外的0.5 ## 何时能用正态分布近似代替泊松分布 当 λ 很小时,泊松分布的形状与正态分布不相同,图像不对称,曲线好像被“扯”向了右边。 当 λ 变大,泊松分布图的外形看起来越来越像正态分布。 当 λ 大于15时可谓足够大。即X ~ Po(λ)且 λ >15,我们就能用 X ~ N(λ,λ),近似计算X ~ Po(λ)

## 十、统计抽样的运用 (抽取样本)

总体:准备对其进行测量、研究或分析的整个群体,可以是人,得分。。
普查:对总体进行研究或调查
样本:从总体中选取的一部分对象

### 抽样方法

### 如何设计样本
确定目标总体
确定抽样单位
确定抽样空间 需要列出一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或编个号。这张表被称为抽样空间,基本上,你可以从这张表中选取样本。

##
无偏样本 可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身做出判断。
偏倚样本 无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。

##
简单的随机抽样
重复抽样与不重复抽样

分层抽样
将通体分割为几个相似的组。

### 用哪个算式作为估计量
我们不使用样本数据的方差,而是其他方式评估总体的方差。如果样本大小为n,可以用下列算式评估总体方差:

σ2= ∑(x-平均数)2 /(n-1)

如果是要用样本评估总体方差,则需哟啊除以n-1。只有在需要计算一组确切数值的方差时,才除以n

### 概率和比例的互有关系
假设你有一个总体,需要求其成功比例。为此,你可用成功的数目除以总体的大小。
现在,假设你想计算从总体重随机选取一个成功事件的概率。为此,你可用总体的成功数目除以总体的大小。可以看出,你计算成功概率的方法和计算成功比例的方法完全一样。
我们可以用字母p代表总体的成功概率,我们也能方便地用p代表比例–二者数值相同。
p = probalility(概率) = proportion (比例)

### 抽样分布
考虑到从同一个总体中取得的所有大小为n的可能样本,由这些样本的比例形成一个分部,这就是“比例的抽样分布”。我们用Ps代表样本比例随机变量。

每一大盒糖球其实就是就从糖球总体中取出的一个样本。每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小。
如果用随机变量X代表样本中的红色糖球的数目,则 X ~ B(n,p),其中n= 100, p = 0.25
样本中的红色糖球的比例取决于X — 样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记为Ps,且 Ps = X/n 。

E(Ps) = E(X/n) = E(X)/n = np /n = p
Var(Ps) = Var(X/n) = Var(X)/n2 = npq/n2 = pq/n

n越大,比例标准误差越小。也就是说,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。

### Ps符合正态分布
当n很大时,Ps的分布接近正态分布。所谓“很大”是指大于30。n越大,Ps的分布越接近正态分布。
Ps ~ N(p, pq/n)

### Ps需要进行连续性修正
每个样本的“成功数目”都是离散的。由于使用“成功数目”计算比例,因此在用正态分布计算概率时,要进行连续性修正。
连续性修正 = ±(1/2)/n = ±1/2n
如果用正态分布近似计算Ps的概率,一定要用±1/2n进行连续性修正;连续性修正的确切数值取决于数值n

### 案例1 (比例的抽象样分布)
糖球总体的 25%为红色。在一盒装有100粒糖球的包装盒中,至少有40%红色糖球的概率有多大?
Ps ~ N(p,pq/n),其中p = 0.25, q= 0.75,且n =100,得到Ps ~ N(0.25,0.001875)
P(Ps ≥ 0.4) = P(Ps>0.4 – 1/(2*100)) = P(Ps>0.0395) #需要矫正
z = (0.0395-0.25)/√(0.001875) = 3.35
P(Z>z) = 1- P(Z<3.35)= 1-0.9996 = 0.0004

## 案例2 (均值的抽样分布)
如果考虑同一个总体中所有大小为n的可能样本,然后用这些样本的均值形成分布,则该分布为“均值的抽样分布”,我们用X(平均) 表示样本均值的随机变量。

对总体的统计,每一个小包装袋里的糖球数目均值为10,方差为1。一个顾客买了30袋糖果,平均数目只有8.5的概率?
分析:
我们已知总体的均值和方差,并用µ和σ2表示,一个包装袋中的糖球数量可以用X表示。
随机选择的每一袋糖球都是X的一个独立观察结果,因此,每一袋糖球都符合相同的分布。即,如果有Xi代表随机选择的一袋糖球中的糖球数量,则么个Xi的期望都是µ,方差都是σ2。每一个Xi的期望都是µ,方差都是σ2。
我们可以用 X平均 表示这N袋糖球的容量均值, X平均 的数值取决于n袋糖球中的每一袋糖球的容量,计算时,要将所有的糖球的数量加起来,再除以n
E(X平均) = µ

Var(X平均) = Var( (X1+X2+X3+..+Xn)/n ) = Var(1/n X1) + .. + Var(1/n Xn)
=1/n2 *(σ2 +… + σ2
= σ2 /n

如果 X ~ N(µ, σ2),则 X(平均) ~ N(µ, σ2 /n)
当n很大时,X(平均) 依然可以用正态分布近似

现在的情况是,我们知道总体的均值和方差,但却不知道总体的分布。不过,没关系,由于样本大小为30,我们还是能够用正态分布求 X(平均) 的概率。这叫做 “中心极限定理”。

中心极限定理

如果从一个非正态总体X中取出一个样本,且样本很大,则 X(平均) 的分布近似为正态分布。如果总体的均值和方差为 µ和 σ2,且n很大,例如大于30,则:
X(平均) ~ N(µ, σ2 /n)
是不是觉得很熟悉?这和X符合正态分布时的情况是一样的。唯一的差别是,当X符合正态分布时,样本的大小无所谓。

根据中心极限定理,如果X的样本很大,则 X(平均) 的分布近似为正态分布。

### 使用中心极限定理
二项分布
假设你有一个总体,用X~B(n,p)表示,其中n大于30。如前所述, µ = np, σ2 =npq。
根据中心极限定理,在这种情况下,X(平均) ~ N(µ, σ2 /n)。为了求出X(平均)的分布,我们代入总体的数值,即代入µ = np, σ2 = pq,得到:
X(平均) ~ N(np, pq)

泊松分布
现在,假设总体符合泊松分布X~Po(λ),n还是大于30。对于泊松分布来说,µ = σ2 = λ。
和以前一样,我们可以借助正态分布求出σ2的概率。如果将以上总体参数代入
X(平均) ~ N(µ, σ2 /n),得到:
X(平均) ~ N(λ, λ/n)

中心极限定理求出的概率与样本的均值有关,而与样本中的数值无关。因此不需要进行任何连续性修正。

十二、置信区间的构建 (自信地猜测)

选择区间上下限是为了让“总体均值介于a和b之间”这一结果具有特定概率。例如:你可能希望通过选择a和b,使得该区间中包含总体均值的几率为95%。也就是说,所选择的a和b使得:

P(a < µ <b) = 0.95
我们用(a,b)表示这个区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有的可信程度,因此,(a,b)被称为置信区间。

### 求置信区间四步骤
1.选择总体统计量 (希望用于构建置信区间的总体统计量)
2.求出其抽样分布
3.决定置信水平
置信水平越高,区间越宽,置信区间包含总体的统计量的几率越大。
如果把置信区间弄得太宽,置信区间就会失去意义。

4.求出置信上下限
X(平均) – 0.98 <µ < X(平均) + 0.98

置信区间简便算法

总体统计量 通体分布 条件 置信区间
µ 正态 σ2 已知

n可大可小

X(平均) 为样本均值

(X(平均) – c *σ /√n,X(平均) + c *σ /√n)
µ 非正态 σ2 已知

n很大(至少30)

X(平均) 为样本均值

(X(平均) – c *σ /√n,X(平均) + c *σ /√n)
µ 正态或非正态 σ2 未知

n很大(至少30)

X(平均) 为样本均值

s2  为样本方差

(X(平均) – c *s /√n,X(平均) + c *s /√n)
p 二项 n很大

Ps为样本比例

qs 等于 1- Ps

 (Ps – c *s/(Ps * qs/n),X(平均) +c *s/(Ps * qs/n))

一般情况下,置信区间的计算方式为:
统计量 ±(误差范围)
误差范围等 = c * (统计量的标准差)
c为根据置信水平查表得到的值

### 案例
糖果公司抽取了一个具有代表性的样本,共10颗,然后称了每一粒糖球的重量。这个样本的 X(平均) =0.5 盎司,s2 = 0.09。 我们如何求出置信区间?

当抽样样本很大时,正态分布是求解置信区间的理想分布– 能得出精确的结果,且与总体本身是否是正态分布无关。现在的情况是–尽管X本身符合正态分布, X(平均) 却不符合。

当总体符合正态分布,σ2未知,且可供支配的样本很小时,X(平均) 符合t分布–这种分布正好可以用来处理我们面临的问题。

t分布是外形光滑、堆成的曲线,确切形状取决于样本的大小。当样本很大时,t分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数–v。v = n-1。n为样本的大小,v被称为自由度。

“T符合t分布且自由度为v”的简明表示方法为:
T ~ t(v)
t分布的使用方法与正态分布相似 — 先讲概率区间的上下限转化为标准分,然后用概率表求出所需要的结果。
X(平均) 的期望为 µ,标准差为 σ/n。由于需要用s评估σ的数值,于是t分布的标准分的算式如下:
T ~ (X(平均) – µ)/(s/√n)

T ~ (X(平均) – µ)/(s/√n) = (X(平均) – µ)/(√(0.09/10)) = (X(平均) – µ)/0.0949
t分布的置信上下限的算法雷士与正态分布的算法,即可通过下式进行计算:
(X(平均) – t*s/√n,X(平均) + t*s/√n ),
其中P(-t ≤ T ≤ t) = 0.95

在用小样本估计总体方差时,t分布更精确。
基于小样本评估σ2有一个问题,即可能无法精确地反映总体方差的真实值。也就是说,我们需要让区间变宽,以便在置信区间中留出一些误差空间。
t分布的形状随着v值发生变化,由于考虑了样本的大小,即使σ2的评估精确度存在各种足以让人有所差距的不确定性,t分布也能忽略不计。当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,这使得它更适合用于小样本。

### 案例
糖果公司发现他们的装糖机出问题了。他们抽取了30台机器作为样本,发现故障次数均值为15。请为每月故障次数构建一个99%的置信区间。

每月故障次数符合泊松分布模型,由于有30台机器,我们可以用(X(平均) -cs√n ,X(平均) +cs√n)求解置信区间。我们需要求99%的置信区间,于是c = 2.58。泊松分布的期望和方差都等于λ,因此 X(平均) = 15且s2 = 15。 置信区间计算如下:

(X(平均) -cs√n ,X(平均) +cs√n) = (15 – 2.58 *√(15/30), 15 + 2.58 *√(15/30))=
(13.176,16.824)

## 十三、假设检验的运用(研究证据)
### 假设检验六步骤
1.确定要进行检验的假设
2.选择检验统计量
3.确定用于做决策的拒绝域
4.求出检验统计量的p值
5.查看样本结果是否位于拒绝域内
6.作出决策

### 案例一
医药公司承诺某种药能治愈90%。
医生随机抽取了15位患者,11位有效,4位无效,到底有效么?
分析:
由于实验次数一定,且医生关注的是治愈人数。因此,治愈人数符合二项分布。
如果用X表示治愈人数,则 X ~B(15,0.9)

1.确定假设
根据制药公司的断言,治愈90%的患者。除非我们有充足证据进行反驳,否则就要接受这个结论。
我们所检验的这个断言被称为原假设,以Ho表示,除非我们有充足证据进行反驳,否则就要接受这个假设。

医生认为制药公司对疗效的断言过于理想,反而显得不真实–她认为治愈率不会达到90%,低于90%的可能性更大。
与原假设队里的断言被称为备择假设,用H1表示。如果有足够的证据拒绝Ho,我们就接受H1。

2.选择检验统计量
我们根据原假设Ho选择检验统计量
如果用X表示治愈人数,则 X ~B(15,0.9)

3.确定拒绝域
我们需要通过某种方法指出何时能够合理地拒绝原假设–指定一个拒绝域即可实现这一目的。如果治愈人数位于拒绝域以内,我们就说有足够的证据可以反驳原假设;如果治愈人数位于拒绝域以外,我们就承认没有足够的证据可以反驳原假设,并接受制药公司的断言。我们把拒绝域的分界点称为“c” — 临界点。

为求拒绝域,先定显著性水平
检验的显著性水平所量度的是一种愿望,即:希望在样本结果的不可能成都达到多大时,就拒绝原假设Ho。

假如,假设我们想以5%为显著性水平检验制药公司的断言,这说明我们选取的拒绝域应使得“治愈人数小于c”的概率小于0.05,即概率分布最低端的5%部分。

在构建检验的拒绝域时,还需要民百一件事:所构建的是单尾检验还是双尾检验。让我们看看这两者之间的差别,以及他们对拒绝域有什么影响。

单尾检验
单尾检验即检验的拒绝域落在可能的数据集的一侧,你选择检验水平–以α表示,然后确保拒绝域以相应的概率反映这个水平。尾部可以是可能数据集的左侧或右侧,具体用哪一侧取决于备择假设H1。
如果备择假设包含一个 <符号,则使用左尾,此时拒绝域位于数据的低端。
如果备择假设包含一个 >符号,则使用右尾,此时拒绝域位于数据的高端。

双尾检验
双尾检验即拒绝域一分为二位于数据集的两侧,你选择检验水平α,然后将拒绝域一分为二,并确保整个拒绝域以相应概率反映这个检验水平。两侧各占α/2。
判断是否需要使用双尾检验的方法是:查看备择假设H1,如果H1包含一个不等号≠,则需要使用双尾检验,这是因为你要找出参数的变化,而不是增减。

4.求出p值
p值即某个小于或者等于拒绝域方向上的一个样本数值的概率。具体求法是利用样本进行计算,然后判定样本结果是否落在假设检验的拒绝域以内。

由于检验的显著性水平为5%,说明说如P(X ≤ 11)小于0.05,则数值11落在拒绝域中,这时我们可以拒绝原假设。
P(X ≤ 11) = 1 – P(X ≥12) = 1 – (15C12*0.13*0.912 + ….) =0.0555

5.样本结果位于拒绝域中吗?
我们的拒绝域位于概率分布的左尾,所用显著性水平为5%。这意味着,如果p值小于0.05,就能拒绝原假设。

6.做出决策
因为假设检验的P值落在检验的拒绝域以外,因此,没有充分的证据可以拒绝原假设。

### 如果样本来那个增加:80个治愈,20个未治愈
样本中有100名患者,而按照制药公司的说法,成功比例为0.9。这就是说,成功数目服从二项分布,其中n = 100,p =0.9
X ~ B(100,0.9)

由于n很大,且np和nq都大于5,我们就用X ~N(np,npq)作为检验统计量。其中X为陈宫治愈的患者的数目。
即能够用 X ~ N(100,9)
经过标准化,得到: Z= (X -90)/3

显著水平设为5%,由于临界值c等于令P(Z <c) = 0.05的数值。在概率表中查找0.05,得到c的数值为-1.64,即: P(Z < – 1.64) = 0.05

### 可能出现错误
即使证据有力,我们也无法绝对保证制药公司的断言是错误的。
我们可以通过假设来检验证据,可以规定在确定性达到何种程度就拒绝原假设,但这些并不能完全保证我们的决策是正确的。

在进行假设检验的时候,你只能根据手头拥有的证据作决策,证据来源于样本,因此,如果样本有偏,那么你就有可能根据有偏的数据做出错误的决策。
有人把假设检验称为显著性检验,这是因为你是按照某种显著性水平进行检验的。

第一类错误: 错误地拒绝真原假设
第二类错误:错误地接受原假设

发生第一类错误的概率等于你的结果位于拒绝域以内的概率。由于拒绝域由检验水平决定,说明如果检验的显著性水平为α ,则发生第一类错误的概率必须也等于α。
P(第一类错误) = α

第二类错误
当原假设实际为错误时,如果接受了原假设,则发生第二类错误。
P(第二类错误) = β

### 第二类错误的计算
第二类错误即在备择假设为真时却接受原假设所引起的错误,只有在H1规定了唯一特定值时我们才能计算这个错误,因此让我们使用备择假设 P = 0.8,因为这个值是医生样本成功比例。
H0 😛 = 0.9
H1:P =0.8
H1 必须规定一个确切的P值,只有这样我们才能利用它计算概率。
我们需要求出位于假设检验拒绝域以外的X值。
(X -90)/3 ≥ -1.64
X ≥ 85.08
因此,如果治愈人数为85.08或更多,我们就会接受原假设。

最后,我们需要假设H1为真,算出 P(X ≥ 85.08),我们就能算出H1实际上为真的情况下接受原假设的概率。
由于我们使用正态分布近似X,于是需要使用的概率分布为X~ N(np,npq),其中n = 100,p=0.8,得到 X ~ N(80,16)。
z = (85.08 -80)/√16 =1.27

P(Z≥1.27) = 1 – P(Z<1.27) = 1 – 0.8980 = 0.102
所以第二类错误的概率是 0.102

### 认识功效
假设检验的功效也是一种概率 — 在H0为假的情况下拒绝H0的概率。也就是说,这是我们做出正确决策二拒绝H0的概率。
只要求出P(第二类错误),再计算假设家宴的功效就容易了。
功效 = 1 – β

### 案例
制药公司和他们的止咳糖浆制造厂发生了争议,厂方说注入药瓶的糖浆量符合正态分布 X~ N(355,25),其中X是量得的每瓶糖浆容量,单位mL。制药公司用大样本进行了检验,发现100瓶糖浆的平均容量为365.5mL。请以1%的显著性水平检验厂方给出的均值假设,与此相对的另一说法是每瓶糖浆的容量均值大于355mL。
解析:
第一步:确定进行检验的假设
H0: µ =355
H1: µ > 355
第二步:选择检验统计量
X(平均) ~ N(µ,σ2/n)。因此根据原假设得知:X(平均) ~ N(355,25/100)
Z = (X(平均) – 355)/√0.25
第三步:决定用于做决策的拒绝域。
备择假设为µ> 355,即拒绝域位于右尾。我们想以1%的显著性水平进行检验,因此拒绝域由P(Z>c) = 0.01决定,利用概率表,得到:c = 2.32。即拒绝域由Z >2.32确定。
第四步:求假设检验的p值。
Z = (X(平均) – 355)/√0.25 = (256.5-355)/0.5 = 3
由于拒绝域位于右尾,因此检验的p值由P(Z>3)决定,查概率表,得到:P值 = 0.0013
第五步:查看样本的结果是否位于拒绝域以内。
第六步:做出决策。
由于样本结果位于拒绝域以内,有充分的理由拒绝原假设,我们可以接受备择假设:µ > 355ml。

十四、X2分布

案例:老虎机有人作弊

老虎机期望概率分布

X -2 23 48 73 98
P(X=x) 0.977 0.008 0.008 0.006 0.001

实际的概率

X -2 23 48 73 98
频数 965 10 9 9  7

## X2分布检验评估差异
有一种概率分布正符合我们的心意–X2分布,X读作“卡”,是希腊字母chi的大写。这种分布通过一个检验统计量来比较期望结果与实际结果之间的差别,然后得出观察频数极值的发生概率。

X2 = Σ(O-E)2/E
其中O代表观察频数,E代表期望频数。
对于概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望的频数,然后将所有结果相加。

X2 = (965-977)2 +… = 38.272
如果X2值很小,说明观察频数和期望频数之间的差别不显著;X2越大,差别越显著。

### 检验统计量代表什么?
检验统计量X2提供了一种对观察频数和期望频数之间的差异进行度量的办法。
X2的数值越小,观察频数和期望频数之间的总差值越小。

X2大到什么程度才算上显著呢?–在什么情况下才能十分肯定地判断老虎机除了问题–而且这个问题已经超出了“合理偶然性”的范围。

为此,我们需要讲讲X2分布。

### X2分布的两个主要用途
X2概率分布住主要用于检验试验结果与期望结果之间何时存在显著差别,该概率分布使用前面讲到的检验统计量 X2进行检验。

X2分布有两个主要用途:
第一是用于检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。例如,可以用来检验老虎机收益的观察频率与我们所期望的分布的吻合程度。
X2分布的另一个用途就是检验两个变量的独立性,通过这个方法可以检查变量之间是否存在某种关联。

X2分布用到一个参数–希腊字母v,读作“钮”,让我们看看v如何影响概率分布的形状。
当v等于1或2
当v等于1或2时,X2分布为一条先高后低的平滑曲线,其形状像一个倒立的J。检验统计量等于较小数值的概率远远高于等于较大数值的概率,这就是说,观察频数有可能接近期望频数。
当v大于2
当v大于2时,X2分布的形状发生改变 –随着X2递增,图形先低,后高,再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。
X2 ~ X2(v)

v表示自由度数目,用于计算检验统计量X2的独立变量的数目,也可以说是独立信息段的数目。

为我那个频数综合与观察频数综合必须相同,这就是说。我们进行计算的时候受到1个限制。

老虎机的案例中,为了计算出检验统计量X2,我们必须计算5个独立信息,同时受到1个限制。于是,自由度的计算结果为:v = 5 -1 = 4

v = (组数) – (限制数)

显著性是多少?
用X2分布进行的检验为单尾检验,右尾被作为拒绝域。于是,通过查看检验统计量是否位于右尾的拒绝域以内,你就可以判定根据期望分布得出的结果的可能性。
如果用显著性水平α进行检验,则可以写作:
X2 α(v)

使用X2概率表

X2 5%(4) = 9.49
38.272 >9.49,因此X2位于拒绝域以内。
X2的数值位于拒绝域以内,于是我们拒绝假设,即,我们有充足的证据拒绝上述“老虎机每局收益符合如下概率分布”这个原假设。

这种假设检验称为拟合优度检验–它检验观察频数是否和假设的概率分布相吻合。若你有一组数据,并希望这组数据符合某种分布,为了看看这组数据是否符合这种分布,则可以用拟合优度检验。

自由度v的计算

分布 条件 v
二项分布 已知p

未知p,必须通过观察频数进行估计

v=n-1

v = n-2

泊松分布 已知λ

未知λ,必须通过观察频数进行估计

v = n-1

v =n-2

正态分布 已知µ, σ2

未知µ, σ2,必须通过观察频数进行估计

 v =n-1

v =n-3

案例二:

有一位负责二十一点赌桌的庄家赔付的钱高于合理值。

庄家A 庄家B 庄家C
43 49 22
8 2 5
47 44 30

需要找到某种方法,检验赌局结果是否取决于坐庄赌局的庄家。

X2分布用来检验独立性

独立性检验的过程和拟合优度的检验过程相同:设立一个假设,用观察频数和期望频数计算X2检验统计量,然后查看结果是否落在拒绝域以内。

首先,算出赌局结果和庄家总频数以及各项的总和,例如可列出下表,这叫做列联表。

 庄家A 庄家B 庄家C 合计
43 49 22 114
8 2 5 15
47 44 30 121
合计 98 95 57  250

P(赢) = 赢局合计/总和
P(A) = 合计A/总和
庄家和赌局相互独立,那么,通过将两种概率相乘,可以求出庄家A坐庄时出现赢局的概率
P(A庄赢局) = P(赢) * P(A)

A庄赢局期望频数 = 总和* P(A庄赢局)

特别行和特定列所形成的期望频数 = 行合计 * 列合计 /总和

X2 = Σ(O-E)2/E

计算自由度:
我们必须算出三位庄家的期望频数以及三种可能结果,于是期望频数为3*3 = 9
对于每一行每一列,我们实际上只需要计算两个期望频数。我们已经知道总频数是多少,因此可以选择第三个频数,使得所有频数相加等于正确的结果。也就是说,我们其实只需要计算其中4个期望频数,其余5个频数可以根据已知的总频数进行推导。
由于必须算出4个期望频数,于是自由度就等于这个数目 — 共需要计算4个独立信息;算出这些频数后,其余频数自然就知道了。即v =4
另一种得知自由度的方法是:我们总共需要计算9个数值,其中5个不用独立进行计算。用前面的公式可计算v = 9-5 = 4

第一步:
我们要检验赌局输赢结果是否独立于坐庄的庄家,于是:
H0 : 赌局输赢结果和坐庄的庄家没事有关系
H1: 赌局输赢结果和坐庄的庄家有关系

第二步:
沃恩求出期望频数,并得出自由度为4.

第三步:
从概率表查出X2 1% (4) =13.28。因此拒绝域由 X2 >13.28决定。

第四步:
用期望频数算出了X2 = 5.004

第五步:
拒绝域由X2 >13.28给出,因此X2 位于拒绝域以外。

第六步:
由于X2 位于拒绝域以外,因此我们接受原假设:没有足够的证据证明赌局结果和庄家之间有关系。

十五、相关与回归(我的线条如何)

### 案例: 露天音乐会 预测天晴时数预测出音乐会听众人数

天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人) 22 33 30 42 38 49 42 55

### 数据类型探讨
单变量数据
考虑的是一个单一变量的频数或概率,例如,单变量数据可以描述赌场收益或新娘的体重,在这两种情况下,所描素的对象各只有一种。

二变量数据面面观
二变量给出两个变量数值,例如,对于同一场音乐会,或者对于同一个观察结果,二变量数据会同时给出预计天晴时数和音乐会听众人数。
其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或解释变量,另一个变量则称为因变量或反应变量。

### 求最佳拟合线公式
误差平方和Σ(y- yi)2 为最小的直线式,其中y = a +bx,从而可以得到a和b的最优值,进而得到最佳拟合线公式。
b= Σ(x- x平均)(y- y平均)/ Σ(x – x平均)2

直线y = a + bx 被称为回归线。

### 最小二乘法
最小二乘回归法是一种数学方法,可以用一条最佳拟合线将一组二变量数据拟合,通过将公式 y = a +bx 的一条直线与一组数值相拟合,使得误差平方和最小 — 即,使得实际数值与这些数值的估计值之间的差值最小。

### 相关系数
r = b * Sx / Sy
Sx = √(Σ(X – X平均)2)/(n-1)
Sy = √(Σ(Y – Y平均)2)/(n-1)

## 十六、尾声
### 2.分析剖析
适用于正态分布的经验法则
经验法则适用于符合正态分布的任何数据集。它表明:几乎所有的数据都位于距离均值三个标准差的范围内。
大约68%的数值位于距离均值1个标准差的范围内;
大约95%的数值位于距离均值2个标准差的范围内;
大约99.7%的数值位于距离均值3个标准差的范围内;

适用于任何分布的切比雪夫定理
至少75%的数值位于距离均值2个标准差的范围内;
大约89%的数值位于距离均值2个标准差的范围内;
大约94%的数值位于距离均值2个标准差的范围内;

### 3.试验
完全随机化设计
随机化区组设计
配对设计

PS:
参考资料:
《深入浅出统计学》

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注