【1.2】TNF四核苷酸多态性-TETRA
下载地址: http://www.megx.net/tetra/html/download.html
安装:biolinux系统自带这个软件,所以就省去了安装的步骤。
一、概念
计算DNA序列四核苷酸多态性的概率,并通过比较不同DNA序列四核苷酸多态性相关性,从而来推测DNA序列的相关性.
原理:
在不同微生物的DNA中,短的寡核苷酸并不是均一的分布的,有的比例多一些,有的比例少一些,呈现出物种特异性的模型.这些模型就像指纹,蕴含着系统发生的标志.换句话说,相近物种的DNA序列一般都会拥有相似寡核苷酸概率的模型,而不相似的物种则不一样.TETRA仅仅针对四核苷酸的统计.基于马尔可夫模型,对上传的DNA序列的碱基的256种四核苷酸概率进行计算.这些数据然后转化为z值,并计算出他们的相关性。
用户:
这个软件是针对宏基因组数据的分析而产生的。在分析宏基因组的过程中,没有标记基因的那些不同微生物基因片段无法给他们聚类。而GC汗来那个,对基因片段的分析(密码子使用性,BLAST hists),四核苷酸相关系数能够给我们提供片段是否相关的依据。
可信度:
在大多数情况下,四核苷酸概率模型会比GC比例在聚类基因组DNA更准确一些。但作为基于序列信息(sequence-based)的方法,四核苷酸概率模型(tetranucleotide usage patterns)也有他的局限性 :
- 这个方法不适合处理高多态性的基因组,因为这样的基因组不同片段具有不均一的四核苷酸概率。(就是有的物种不适合呗)
- DNA序列四核苷酸概率模型是对整个序列的全局统计,然后在不同位置上大概也会出现这么个现象,所以,序列越长越能代表整体,越正确。尽管特殊的四核苷酸概率模型可以通过先进的方法从小于1kb的序列中获得,但是具有统计学概率,序列长度至少要20kb,
- 作为sequences-based方法,统计的那个片段如果发生基因水平转移的话,这个结果也是会受到影响的。
Z值和p值
通过统计可以得知序列DNA的256种四核苷酸排列的概率(observed值),通过马尔可夫模型我们预测出相应的四核苷酸排列的概率(except值),用这两个值就可以计算出每个四核苷酸相应的Z值。
N(n1n2n3n4)是我们计算某种四核苷酸概率得到的值,而对应的期望值(计算期望值的这个公式则是来源于马尔可夫模型)则为:
$$ E_{n1n2n3n4} = { \frac{N_{n1n2n3}N_{n2n3n4}}{ N_{n2n3} } } $$
Z值计算的公式为:
$$ Z_{n1n2n3n4} = {\frac{ N_{n1n2n3n4} - E_{n1n2n3n4} } { \sqrt{var\left(N\left(n1n2n3n4\right)\right)} } }$$
Var值计算如下:
详细的说明请见相应的文献:Schbath, S., Prum, B., and de Turckheim. E. (1995) Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences. J Comput Biol 2: 417–437. p值是俩俩序列比较相似性的时候,统计256个z值的皮尔逊相关系数得到的一个值,介于0到1之间,值越大,说明相关性越强。
TETRA仅仅用来观测基因片段见的相关性,不能用来推测进化关系。同时它要求序列越长越好,进化距离远的不同种属有时聚类效果不是太好。
参考资料:
官网 http://www.megx.net/tetra/index.html
文献: Teeling, H., Meyerdierks, A., Bauer, M., Amann, R. & Glöckner, F.O. (2004) Application of tetranucleotide frequencies for the assignment of genomic fragments. Environ Microbiol 6: 938-947
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn