3.二项分布

一、二项分布有啥用

当你遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。

二项分布可以用于可靠性试验。可靠性试验常常是投入n个相同的式样进行试验T小时,而只允许k个式样失败,应用二项分布可以得到通过试验的概率.

例如你按我之前的《投资赚钱与概率》买了这5家公司的股票(谷歌,Facebook,苹果,阿里巴巴,腾讯),为了保底和计算投入进去多少钱,你想知道只要其中3个股票帮你赚到钱(成功的次数)的概率多大,那么这时候就可以用二项分布计算出来。

例1.假设有5只实验小白鼠,要求它们同种属、同性别、体重相近,且给小白鼠注射一定剂量的毒物时,他们有相同的死 亡率80%,存活率为20%。那么这5只小白鼠实验后全部死亡的概率是多少?有一只白小鼠存活的概率是多少?2只小白 鼠存活的概率是多少?

P死=0.8

P活=0.2

P1=0.8×0.8×0.8×0.8×0.8 =0.85=0.328

P2 = C 51* 0.2×0.84=0.082

P3 = C52 *0.22×0.83=0.020

该实验有三个特点:

  1. 各次实验是彼此独立的;
  2. 每次实验只有二种可能的结果,或死亡或生存;
  3. 每次实验小白鼠死亡和生存的概率是固定的。

具备以上三点,即从阳性率为π的总体中随机抽取大小为n的样本,则出现“阳性”数为X的概率分布即呈现二项分布,记作 B(n,p)。

二、二项分布的定义

1、伯努利随机变量(两点分布)

特别的,如果一个试验所包含的事件只有两个,其概率分布为

P{X=x1}=p(0

P{X=x2}=1-p=q

这种分布称为两点分布。 如果x1=1,x2=0,有 P{X=1}=p   P{X=0}=q   这时称X服从参数为p的0-1分布,它是离散型随机变量分布中最简单的一种。由于是数学家伯努利最先研究发现的,为了纪念他,我们也把服从这种分布的试验叫伯努利试验。习惯上,把伯努利的一种结果称为“成功”,另一种称为“失败”。

说明:

1.随机变量ξ或η的特点:

(1)可以用数表示;

(2)试验之前可以判断其可能出现的所有值;

(3)在试验之前不可能确定取何值。

2. 二项分布

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布就是伯努利分布。

如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是

$$P=C_{n}^{k} p^{k} \left( 1-p \right) ^{n-k} $$

举例:每次投篮命中率0.7,问投篮20次命中10次的概率。则

$$P=C_{20}^{10} 0.7^{10} (1-0.7)^{20-10}$$

这类问题称为二项分布

证明:

由二项式分布的定义知,随机变量X是n重伯努利实验中事件A发生的次数,且在每次试验中A发生的概率为p.因此,可以将二项式分布分解成n个相互独立且以p为参数的(0-1)分布随机变量之和.

设随机变量X(k)(k=1,2,3...n)服从(0-1)分布,则X=X(1)+X(2)+X(3)....X(n).

因X(k)相互独立,所以期望:E(X)=E[X(1)+X(2)+X(3)....X(n)]=np.

方差:D(X)=D[X(1)+X(2)+X(3)....X(n)]=np(1-p).

证毕.

如果

1.在每次试验中只有两种可能的结果,而且是互相对立的; 2.每次实验是独立的,与其它各次试验结果无关; 3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验。

在这试验中,事件发生的次数为一随机事件,它服从二次分布.

记作ξ~B(n,p)

期望:Eξ=np

方差:Dξ=npq

二项分布的形状取决于n,p

知道这个期望有啥用呢?

做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*12=2.5次,也就是有大约3次你可以抛出正面。

二项分布的特点

  1. n,p是二项分布的两个参数,所以二项分布的形状取决于n,p。
  2. 当p =0.5时分布对称,近似对称分布。
  3. 当p ≠0.5时,分布呈偏态,特别是 n 较小时,π 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着 n 的增大,分布逐 渐逼近正态。
  4. 当 p 或 1­ π 不太小,而 n 足够大,通常 np 和 n(1­ -p) 均大于或 等于5,我们常用正态近似的原理来处理二项分布的问题。

二、 二项分布的应用

在生物医学中,我们经常要处理这样一类问题:

(1)每次试验只有两种互斥的结果。如生化检验的结果(阴性或阳 性),毒性试验的结果(存活或死亡),或者每次试验我们只关心某事件是否发生,即要么事件发生,要么事件不发生。

(2)为了找到这些试验结果的规律性,通常需要在相同条件下独立重复作 n 次,如对 n 个患者用完全相同的治疗方案进行治疗,对 n 只动物进 行剂量相同的毒性试验等。

(3)我们只关心的是 n 次试验中阳性结果的数目,如 n 个患者治疗后的 治愈数,n 只动物毒性试验的存活数等等。

1.概率估计

例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?

分析:

(1)钩虫感染只有两个互斥的结果,即感染与非感染;

(2)每个人被钩虫感染的概率相同;

(3)人与人之间钩虫感染可假设为相互独立的,所以感染钩虫的人 数 X 可认为服从 n = 150,p = 0.13的二项分布。

P(X=10) = (150!/10!(150 -10)!)* 0.1310 *0.87140 =0.0055

2. 累计概率计算

如果某地钩虫感染率为13%,随机观察当地150人,其 中至多有2人感染钩虫的概率有多大?至少有2人感染钩虫 的概率有多大?至少有20人感染钩虫的概率有多大?

P(X ≥ 20) = 0.4879

3. 其它应用

  1. 二项分布的正态近似

根据中心极限定理,在 n 较大,np 与 n(1-p) 均大于或等于5时,二项分 布接近与正态分布。

当 n 无穷大时,二项分布B(n,π)的极限分布是总体均数为 m = np , 总体标准差为 σ = √(np(1-p))的正态分布N(np,np(1-p)), 此时可用该正态分布进行估计。

  1. 总体率的区间估计
  2. 样本率与总体率的比较
  3. 两样本率的比较
  4. 研究非遗传性疾病的家族聚集性
  5. 率的抽样调查的样本量估计

三、负二项分布

负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;

而“负二项分布”是直到成功r次时即终止的独立试验中。

k次实验,每次成功概率为p,连续独立实验k次直到成功r次

P(ξ=K)= C(k-1r-1) * pr (1-p)(k-r)

参考资料:

《深入浅出统计学》

梳理统计与数据分析(具体详见这本书)

二项分布http://baike.baidu.com/view/79831.htm?fr=aladdin

中山大学课程 《医学统计学》方积乾

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学