impute

一、imputation 概况

imputation是一种猜测数据的方法。该方法可以很简单,可以直接从可选的情况中选择可行性最大的,也可以很负责,通过其他已知的数据来推测这一部分未知的。

1.imputation of SNPs ?

在遗传学中,imputation通常用来猜测未被测出来的SNPs

2.为什么imputation

在SNP研究中,SNP丢失比较常见,通常比例能到达5-10%,但出于费用的考虑,重新分型的可能性不高;所以这一部分的SNPs通常被丢掉了,猜测这些数据的值能够降低费用同时减少有用的信息的丢失。

二、imputation常用的方法

如下图,某个人测了16个SNPs,但其中有一个SNP因为实验原因,信息没测到。 如果我们能获得这个SNP的基因型,那么我们就可以不用重新测序了。

方法一:Naive Method

直接根据这个SNP的频率,选择频率最大的那个作为这个点的基因型

但如果刚好这个人的这个SNP出现的是低频的基因型呢?

方法二: LD Method

根据 HapMap,我们可以获知未知基因的SNP跟其他已知基因型位点的LD值。 如果测出的数据中有SNP跟这个位点有很强的LD关系,则可以根据那个位点来推测出这个位点

如果有很多已知位点跟该SNP有很强的LD关系怎么办?

可以根据根据LD值,计算该未知SNP为 Major Allele 或Minor的推测个数,如果推测出来为Marjor更多,那就是Major。反之

方法三 其他方法

LD方法的缺点

  1. Doesn’t have optimal accuracy。 Other methods have as low as 4 or 5% error rate [J. Dai et al. 2007]
  2. Doesn’t produce a statistically usable confidence value。 Confidence value is dependent on sample size (and can decrease due to increased sample size)
  3. Not easy to interpret unless it is -1 or 1。 Results are dependent on haplotype phasing, which may have errors

另外需要改进的地方:

及时LD值为1,但有的位点两个Allele的频率相等时,仍旧没法判断到底选哪一个

改进的方法:

三、常用工具

IMPUTE2

http://mathgen.stats.ox.ac.uk/impute/impute_v2.html

参考资料:

https://en.wikipedia.org/wiki/Imputation_(genetics)

http://www.dxy.cn/bbs/topic/22352446

http://mathgen.stats.ox.ac.uk/impute/impute_v2.html

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学