真核基因预测

一段基因序列往往会包含很多Orf,而我们所谓的注释也是针对这些具有表达功能的orf,所以找出这些Orf,也就是所谓的基因预测对基因注释显得明显很重要。而真核生物基因序列又要比原核生物的复杂很多,里面包含很多可供选择的起始和终止子,还有可变剪切。这样包含序列编码区以及非编码区(包括内含子,UTRs,基因间的区域)的序列在预测其Orf的复杂程度很想而知。

而现有的预测方法主要有两种:1,序列相似的方法(similarity-based,也叫extrinsic,主要是比对);2,ab initio(从头预测的方法,也叫intrinsic,主要是构建统计模型),这些统计模型包括neural networks,Markov models,Fourier transforms等。同时算法会涉及DP,LDA,HMM,Linguist,network等。

下面这张图来自参考的文献,文献发表于06年,而生物信息工具的更新日新月异,所以下面的仅供参考。

参考资料:

文献:Computational Approaches to Gene Prediction

ps:这里面涉及到的算法基本上没看懂,特被是这个Z-scores,先保留悬念吧。

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学