3.二项分布

July 10, 2017 medical-statistics 阅读量：次

一、二项分布有啥用

当你遇到一个事情，如果该事情发生次数固定，而你感兴趣的是成功的次数，那么就可以用二项分布的公式快速计算出概率来。

二项分布可以用于可靠性试验。可靠性试验常常是投入n个相同的式样进行试验T小时，而只允许k个式样失败，应用二项分布可以得到通过试验的概率.

例如你按我之前的《投资赚钱与概率》买了这5家公司的股票（谷歌，Facebook，苹果，阿里巴巴，腾讯），为了保底和计算投入进去多少钱，你想知道只要其中3个股票帮你赚到钱（成功的次数）的概率多大，那么这时候就可以用二项分布计算出来。

例1.假设有5只实验小白鼠，要求它们同种属、同性别、体重相近，且给小白鼠注射一定剂量的毒物时，他们有相同的死亡率80%，存活率为20%。那么这5只小白鼠实验后全部死亡的概率是多少?有一只白小鼠存活的概率是多少?2只小白鼠存活的概率是多少?

P死=0.8

P活=0.2

P1=0.8×0.8×0.8×0.8×0.8 =0.8⁵=0.328

P2 = C ₅¹* 0.2×0.8⁴=0.082

P3 = C₅² *0.22×0.8³=0.020

该实验有三个特点：

各次实验是彼此独立的;
每次实验只有二种可能的结果，或死亡或生存;
每次实验小白鼠死亡和生存的概率是固定的。

具备以上三点，即从阳性率为π的总体中随机抽取大小为n的样本，则出现“阳性”数为X的概率分布即呈现二项分布，记作 B(n,p)。

二、二项分布的定义

1、伯努利随机变量（两点分布）

特别的，如果一个试验所包含的事件只有两个，其概率分布为

P｛X=x1｝=p(0

P｛X=x2｝=1-p=q

这种分布称为两点分布。如果x1=1,x2=0,有 P｛X=1｝=p 　　P｛X=0｝=q 　　这时称X服从参数为p的0-1分布，它是离散型随机变量分布中最简单的一种。由于是数学家伯努利最先研究发现的，为了纪念他，我们也把服从这种分布的试验叫伯努利试验。习惯上，把伯努利的一种结果称为“成功”，另一种称为“失败”。

说明:

1.随机变量ξ或η的特点：

(1)可以用数表示；

(2)试验之前可以判断其可能出现的所有值;

(3)在试验之前不可能确定取何值。

2. 二项分布

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布就是伯努利分布。

如果事件发生的概率是P,则不发生的概率q=1-p，N次独立重复试验中发生K次的概率是

$$P=C_{n}^{k} p^{k} \left( 1-p \right) ^{n-k} $$

举例：每次投篮命中率0.7，问投篮20次命中10次的概率。则

$$P=C_{20}^{10} 0.7^{10} (1-0.7)^{20-10}$$

这类问题称为二项分布

证明:

由二项式分布的定义知，随机变量X是n重伯努利实验中事件A发生的次数，且在每次试验中A发生的概率为p.因此，可以将二项式分布分解成n个相互独立且以p为参数的（0-1）分布随机变量之和.

设随机变量X（k）(k=1,2,3...n)服从（0-1）分布，则X=X(1)+X(2)+X(3)....X(n).

因X(k)相互独立,所以期望：E(X)=E[X(1)+X(2)+X(3)....X(n)]=np.

方差：D(X)=D[X(1)+X(2)+X(3)....X(n)]=np(1-p).

证毕.

如果

1．在每次试验中只有两种可能的结果，而且是互相对立的； 2．每次实验是独立的,与其它各次试验结果无关; 3．结果事件发生的概率在整个系列试验中保持不变，则这一系列试验称为伯努利实验。

在这试验中,事件发生的次数为一随机事件，它服从二次分布.

记作ξ~B(n,p)

期望：Eξ=np

方差:Dξ=npq

二项分布的形状取决于n,p

知道这个期望有啥用呢？

做任何事情之前，知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次，每次概率是1/2，那么期望E(x)=5*1/2=2.5次，也就是有大约3次你可以抛出正面。

二项分布的特点

n，p是二项分布的两个参数，所以二项分布的形状取决于n，p。
当p =0.5时分布对称，近似对称分布。
当p ≠0.5时，分布呈偏态，特别是 n 较小时，π 偏离0.5越远，分布的对称性越差，但只要不接近1和0时，随着 n 的增大，分布逐渐逼近正态。
当 p 或 1 π 不太小，而 n 足够大，通常 np 和 n(1 -p) 均大于或等于5，我们常用正态近似的原理来处理二项分布的问题。

二、二项分布的应用

在生物医学中，我们经常要处理这样一类问题：

(1)每次试验只有两种互斥的结果。如生化检验的结果(阴性或阳性)，毒性试验的结果(存活或死亡)，或者每次试验我们只关心某事件是否发生，即要么事件发生，要么事件不发生。

(2)为了找到这些试验结果的规律性，通常需要在相同条件下独立重复作 n 次，如对 n 个患者用完全相同的治疗方案进行治疗，对 n 只动物进行剂量相同的毒性试验等。

(3)我们只关心的是 n 次试验中阳性结果的数目，如 n 个患者治疗后的治愈数，n 只动物毒性试验的存活数等等。

1.概率估计

例1.如果某地钩虫感染率为13%，随机观察当地150人，其中恰好有10人感染钩虫的概率有多大?

分析:

(1)钩虫感染只有两个互斥的结果，即感染与非感染;

(2)每个人被钩虫感染的概率相同;

(3)人与人之间钩虫感染可假设为相互独立的，所以感染钩虫的人数 X 可认为服从 n = 150，p = 0.13的二项分布。

P(X=10) = (150!/10!(150 -10)!)* 0.1310 *0.87¹⁴⁰ =0.0055

2. 累计概率计算

如果某地钩虫感染率为13%，随机观察当地150人，其中至多有2人感染钩虫的概率有多大?至少有2人感染钩虫的概率有多大?至少有20人感染钩虫的概率有多大?

P(X ≥ 20) = 0.4879

3. 其它应用

二项分布的正态近似

根据中心极限定理，在 n 较大，np 与 n(1-p) 均大于或等于5时，二项分布接近与正态分布。

当 n 无穷大时，二项分布B(n,π)的极限分布是总体均数为 m = np ，总体标准差为 σ = √（np(1-p)）的正态分布N(np,np(1-p))，此时可用该正态分布进行估计。

总体率的区间估计
样本率与总体率的比较
两样本率的比较
研究非遗传性疾病的家族聚集性
率的抽样调查的样本量估计

三、负二项分布

负二项分布”与“二项分布”的区别在于：“二项分布”是固定试验总次数N的独立试验中，成功次数k的分布；

而“负二项分布”是直到成功r次时即终止的独立试验中。

k次实验，每次成功概率为p，连续独立实验k次直到成功r次

P(ξ=K)= C(k-1r-1) * pr (1-p)(k-r)

参考资料:

《深入浅出统计学》

梳理统计与数据分析（具体详见这本书）

二项分布http://baike.baidu.com/view/79831.htm?fr=aladdin

中山大学课程《医学统计学》方积乾

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn