基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基因组研究的基础。

       在早期,基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。现在,由于人类已经获得了巨大数量的基因组信息,依靠较慢的实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。

       识别具有生物学功能的片段与判定该片段(或其对应的产品)的功能是两个不同的概念,后者通常需要通过基因敲除等的实验手段来决定。不过,生物信息学的前沿研究正在使得由基因序列预测基因功能变得愈发可能。

       在基因的间接识别法(Extrinsic Approach)中,人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列;而由给定的蛋白质序列,也可以由密码子反转确定一族可能的DNA序列。因此,在线索的提示下搜寻工作相对较为容易,搜寻算法的关键在于提高效率,并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。
若DNA序列的某一片段与mRNA或蛋白质序列具有高度相似性,这说明该DNA片段极有可能是蛋白编码基因。但是,测定mRNA或蛋白质序列的成本高昂,而且在复杂的生物体中,任意确定的时刻往往只有一部分基因得到了表达。这意味着从任何单个细胞的mRNA和蛋白质上都只能获得一小部分基因的信息;要想得到更为完整的信息,不得不对成百上千个不同状态的细胞中的mRNA和蛋白质测序。这是相当困难的。比如,某些人类基因只在胚胎或胎儿时期才得到表达,对它们的研究就会受到道德因素的制约。
尽管有以上困难,对人类自身和一些常见的实验生物如老鼠和酵母菌,人们已经建立了大量转录和蛋白质序列的数据库。如RefSeq数据库,Ensembl数据库等等。但这些数据库既不完整,也含有相当数量的错误。

       鉴于间接识别法的种种缺陷,仅仅由DNA序列信息预测蛋白质编码基因的从头计算法(Ab Initio Approach)就显得十分重要了。一般意义上基因具有两种类型的特征,一类特征是“信号”,由一些特殊的序列构成,通常预示着其周围存在着一个基因;另一类特征是“内容”,即蛋白质编码基因所具有的某些统计学特征。使用Ab Initio方法识别基因又称为基因预测。通常我们仍需借助实验证实预测的DNA片段是否具有生物学功能。
在原核生物中,基因往往具有特定且容易识别的启动子序列(信号),如Pribnow盒和转录因子。与此同时,构成蛋白质编码的序列构成一个连续的开放阅读框(内容),其长度约为数百个到数千个碱基对(依据该长度区间可以筛选合适的密码子)。除此之外,原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。
从头计算法现在平均准确度能够达到90%以上,它的正确率主要受着几个方面的影响:genomic islands of differing GC content, pseudogenes, and genes with programmed or artificial frameshifts, leading to sizeable variability between their gene model predictions【1】,To improve gene models generated by ab initio predictions, some tools include heuristics and post-processing steps such as overlap removal, translation initiation site adjustment, and frameshift detection8,9, while others rely on the presence of sequenced close relatives10 or experimental evidence11,12

       对真核生物(尤其是复杂的生物如人类)的基因预测则相当有挑战性。一方面,真核生物中的启动子和其他控制信号更为复杂,还未被很好的了解。两个被真核生物基因搜寻器识别到的讯号例子有CpG islands及poly(A) tail的结合点。另一方面,由于真核生物所具有的splicing机制,基因中一个蛋白质编码序列被分为了若干段(外显子),中间由非编码序列连接(基因内区)。人类的一个普通蛋白质编码基因可能被分为了十几个外显子,其中每个外显子的长度少于200个碱基对,而某些外显子更可能只有二三十个碱基对长。因而蛋白质编码的一些统计学特征变得难于判别。

高级的基因识别算法常使用更加复杂的概率论模型,如隐马尔可夫模型。Glimmer是一个广泛应用的高级基因识别程序,它对原核生物基因的预测已非常精确,相比之下,对真核生物的预测则效果有限。GENSCAN计划是一个著名的例子。

       由于多个物种的基因组序列已完全测出,使得比较基因组学得以发展,并产生了新的基因识别的方法。该方法基于如下原理:自然选择的力量使得基因和DNA序列上具有生物学功能的其他片段较其他部分有较慢的变异速率,在前者的变异更有可能对生物体的生存产生负面影响,因而难以得到保存。因此,通过比较相关的物种的DNA序列,我们能够取得预测基因的新线索。2003年,通过对若干种酵母基因组的比较,人类对原先的基因识别结果作了较大的修改;类似的方法也正在应用于人类的基因组研究,并可能在将来的若干年内取得成果。

基因预测(识别)两种方法:

1,通过相似性比对,从已知基因和蛋白质序列中得到间接证据;

2,基于各种统计模型和算法从头预测。


Glimmer

广泛用于高级基因识别程序,对缘何生物的ORF预测非常准确,但是对真核有限,在谷歌中输入:NCBI GLIMMER 即可搜索到,上传你的数据,然后点击RUN即可,简单快捷,最后会给出你的序列每条都是从哪到哪有多少条的ORF。

MetaGeneAnnotator

主要用于原核生物,细菌和古菌,可以是基于预测和宏基因组预测.

网页版的总长度不能超过10M,所以我选择下载该软件,解压缩,
终端输入如下命令:

 >/mga所在文件夹/mga /序列所在文件/[multi-fasta] <-m/-s>
 -m: multiple species (sequences are individually treated)
 -s: single species (sequences are treated as a unit)
 注:如果你想让生成的结果在你指定的文件夹里面,可以事先CD到该文件夹。

MetaGeneMark

预测的范围是细菌和古菌(网页版:)
下载地址

使用方法参照上面的metageneannotator和解压缩后的readme。
Example 1:
gmhmmp -m MetaGeneMark_v1.mod sequence.mfa 
Predictions will be in file "sequence.mfa.lst" in default GeneMark.hmm format 
Example 2:
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod -o sequence.gff sequence.mfa
Predictions will be in file "sequence.gff" in GFF format
with nucleotide and protein sequences for each predicted gene. 
其中为sequence.gff生成文件,sequence.mfa为输入文件
Example 3:
after step Example 2
nt_from_gff.pl < sequence.gff > nucleotides.fasta
Nucleotide sequence of predicted genes will be saved in 
FASTA formatted file nucleotides.fasta
注意上面的是一个perl脚本,所以输入文件的< >是不可少的。
Example 4:
after step Example 2
 aa_from_gff.pl < sequence.gff > proteins.fasta
Amino acid sequence of predicted genes will be saved in 
FASTA formatted file proteins.fasta
其中为sequence.gff输入文件

参数介绍:

/sam/metagenemark/gmhmmp   
prokaryotic GeneMark.hmm version 2.10    
Usage:
gmhmmp [parameters ...] [sequence filename]
Sequence file in FASTA format can have multi-FASTA sequence   

Required parameters:
-m [filename] File with gene finding parameters    

Optional parameters:   
*** Output options  
 -o [filename] Output file name default = [sequence filename].lst
-a Show protein sequence of predicted genes
-d Show nucleotide sequence of predicted genes
-f [L|G] Output format: [L] LST or [G] GFF2 default = L
-K Show RBS location and score
-k Show RBS scores and spacer; this option must be first in command line   

*** Prediction options
-r Use RBS for gene start prediction
-s [d|r|.] Strand to predict genes on
default = '.' predict genes on both strands
-p [1|0] Gene overlap are allowed [1] or prohibited [0]
default = 1  [0] is used for gene finding in intron-less eukaryotic genomes
-e [filename] use this file with external infromation to profile predictions     

*** Developer options  
-i [number] Probability of initiation and termination in non-coding state   default = 0.5
-n Turn OFF prediction of the incomplete genes   at sequence gaps: strings of unknown letters 'N'  

Examples:
gmhmmp -r -m bsub.mod -o sequence.lst sequence.fasta;
gmhmmp -r -p 0 -m yeast.mod -o sequence.lst sequence.fasta 

/sam/metagenemark/gmhmmp -a -d -f G -m /sam/metagenemark/MetaGeneMark_v1.mod -o sequence.gff contig.fasta

这就是预测出宏基因组的三个常用的软件,使用起来都比较容易,但是在预测orf后,我们需要对一些脚本来统计数据和分类以便下一步分析。

prodial

Prokaryotic Gene Prediction Program
下载prodial

cd /路径
prodial -a 生成文件 -i 输入文件 -m -o tmp.txt -p meta -q
sam@sam-Precision-WorkStation-T7500[sam] /sam/prodigal [ 4:22PM
Usage: prodigal [-a trans_file] [-c] [-d nuc_file] [-f output_type]
 [-g tr_table] [-h] [-i input_file] [-m] [-n] [-o output_file]
 [-p mode] [-q] [-s start_file] [-t training_file] [-v]
-a: Write protein translations to the selected file.
 -c: Closed ends. Do not allow genes to run off edges.
 -d: Write nucleotide sequences of genes to the selected file.
 -f: Select output format (gbk, gff, or sco). Default is gbk.
 -g: Specify a translation table to use (default 11).
 -h: Print help menu and exit.
 -i: Specify input file (default reads from stdin).
 -m: Treat runs of n's as masked sequence and do not build genes across
 them.
 -n: Bypass the Shine-Dalgarno trainer and force the program to scan
 for motifs.
 -o: Specify output file (default writes to stdout).
 -p: Select procedure (single or meta). Default is single.
 -q: Run quietly (suppress normal stderr output).
 -s: Write all potential genes (with scores) to the selected file.
 -t: Write a training file (if none exists); otherwise, read and use
 the specified training file.
 -v: Print version number and exit.

GenePRIMP

官网
针对原核生物基因注释工具,预测的结果包括:short genes,long genes, unique genes, dubious genes, broken genes, interrupted genes, and putative missed genes

还有RAST, AMIGene


参考资料:
维基百科: http://zh.wikipedia.org/wiki/基因预测
文献:【1】 GenePRIMP: A GENE PRediction IMprovement Pipeline for Prokaryotic genomes

3 thoughts on “宏基因组ORF预测

  1. 博主好,可以发一下这两个perl文件给我吗?nt_from_gff.pl 和aa_from_gff.pl ,我的qq邮箱:maiguoqin@qq.com,谢谢。

发表评论

电子邮件地址不会被公开。 必填项已用*标注