【6.3.1】16SrRNA的预测与鉴定

May 07, 2015 Gene_prediction 阅读量：次

16S rRNA作为微生物的特征片段，在鉴定微生物物种的过程中起着重要的作用。我们在做宏基因组分析的时候可以找一下scaffolds中的16S rRNA，然后跟数据库比对，看里面都有什么物种；或者我们直接对环境样品进行16S rRNA 高通量测序，然后来获知该环境样品的群落组成。总之16srRNA的分析很重要。本博文将围绕16S rRNA的预测与鉴定两部分展开。

16s

一、预测

Rnammer、Infernal、Usearch 可以用来预测rRNA。

1.1. RNAmmer

网页版偶尔不好使，可以本地化该软件

RNAmmer本地化

1.1.1 安装要求

Unix系统，perl，hmmsearch(需要安装hmmer-2.2g版本，使用最新版本会出错)

1.1.2 安装

安装hmmer-2.2g

$ wget ftp://selab.janelia.org/pub/software/hmmer/2.2g/hmmer-2.2g.tar.gz
$ tar zxf hmmer-2.2g.tar.gz
$ cd hmmer-2.2g
$ ./configure
$ make;
$make install（这一步应该是改环境变量吧，这一步我没有弄。有一个哥们提到：到make这一步都完全正常，只是make install 时出现了错误，但是最后binaries文件夹中出现了一系列程序，直接将程序cp到/usr/local/bin/目录种就可以用了。未验证他的这种说法，保留意见。）

安装RNAmmer

该软件需要使用edu邮箱去申请。下载地址：http://www.cbs.dtu.dk/cgi-bin/nph-sw_request?rnammer （需要学校的邮箱来认证）下载，解压缩，然后进入rnammer修改部分地址, 一个是你安装Rnammer路径，一个是hmmsearch的路径，安装在哪里就改成哪里就可以了

（两处修改）
my $INSTALL_PATH = "/usr/cbs/bio/src/rnammer-1.2";
修改为my $INSTALL_PATH = "/sam/hmmer/binaries/rnammer";
HMMSEARCH_BINARY = "/usr/cbs/bio/bin/linux64/hmmsearch";
修改为HMMSEARCH_BINARY = "/sam/hmm/binaries /hmmsearch";

（一哥们安装经验，为验证，放在这供参考：申请到的RNAmmer软件包是现有的程序，所以最佳的方式就是直接将它解压到/usr/local/bin/目录中就好了。修改一下rnammer程序。首先应该修改rnammer的权限，为了方便我直接用 chmod 777 rnammer 命令改成了最高权限了。然后用vi nammer 对其进行修改，如博主所述，修改的两个地方。一个是你安装nammer路径，一个是hmmsearch的路径，安装在哪里就改成哪里就可以了。ps： /usr/local/bin/ 是默认的环境变量路径，所以安装在这个目录中的软件你在任何一个目录下都可以使用，就不需要每次都加上程序的绝对路径了。）

检测是否正常运行

cd /sam/rnammer/example;
../rnammer -S bac -m lsu,ssu,tsu -xml ecoli.xml -gff ecoli.gff -h ecoli.hmmreport < ecoli.fsa
（建议复制这个example文件夹，这样在这个文件夹里面运行结束后，可以比较两个的结果)

1.1.3. RNAmmer的运行与参数

$ rnammer [options] sequence.fasta
-S 指定输入序列的物种所属的界： arc bac 或 euk
-gff 生成的gff文件结果
-m 所需要预测的moleculers： 'tsu' for 5/8s rRNA, 'ssu' for 16/18s rRNA, 'lsu' for 23/28s rRNA。如果全部进行预测，则该参数后为'tsu,ssu,lsu'。
-multi 并行运算，预测正反两条链上所有的moleculers。最多并行运行6个计算。使用该参数，则不需要上一个参数。
-f 生成的rRNA的fasta结果文件
-h 生成的hmm报告结果
-gff 生成的rRNA的gff2文件
-x 生成的xml结果文件

对真核生物基因组进行rRNA预测的一个示例命令:

$ /opt/biosoft/rnammer-1.2/rnammer -S euk -multi -f rRNA.fasta\
-h rRNA.hmmreport -xml rRNA.xml -gff rRNA.gff2 genome.fasta

细菌的一条染色体，运行一下命令即可

rnammer -S bac -multi -f rRNA.fasta -h rRNA.hmmreport -xml rRNA.xml -gff rRNA.gff2 < genome.fasta

1.1.4. RNAmmer的结果

rRNA.fasta，rRNA.gff2，rRNA.hmmreport，rRNA.xml。

1.2. infernal

官网http://infernal.janelia.org/

1.3.usearch寻找16S rRNA

当然，也可参照我之前的博客http://blog.sina.com.cn/s/blog_670445240101njwi.html

二．鉴定

预测出来的16S rRNA用RDP即可知道该rRNA是属于哪个物种的，由此我们推测该cluster是什么物种。

Rdp (ribosomal database project)用于对16S rRNA或者真菌LSU序列的分类地位上的鉴定。RDP naïve Bayesian rRNA Classifier的一种分层分类方法。

官网服务器：http://rdp.cme.msu.edu/classifier/classifier.jsp 在官网上将你的序列上传上去，如果是16S rRNA，就选择模式：16S rRNA training set 9，然后submit,一会的功夫就会出来结果。

两种模式：

16S rRNA training set 9
Fungal LSU

计算方式

这个方法不需要比对。8个碱基一组（称为word），这样就有6万多种排列组合。对已知的880个属（现在数目应该大于这个）按照这个这种方式统计6万多种排列的比例情况。上传的序列的组合数也求出来，然后随即选择word,跟参考库的来计算，（具体怎么计算，这个就是贝叶斯算法的核心罗，先不管）,进行100次，100次计算都在同一个分类地位的数目，则为bootstrap cutoff。分类结果的后面都会跟上一个bootstrap cutoff。设定一个阈值，root的置信阈值一般选择的是80%。这个bootstrap cutoff又叫confidence estimate

上传序列的格式

Fasta, GenBank and EMBL格式长度至少为50个碱基，序列数要小于100000条。序列数超过100000条，联系 rdpstaff@msu.edu

置信阈值

通过100次抽样，分配到该分类地位的次数，则为boot cutoff ,极为最后结果分类地位后面跟着的那个百分数. 对于序列长度小于250bp,长于50bp.bootstrap cutoff 为50%则认为可以反映序列属的水平

结果

序列后面跟着的“-”意味是根据序列反向来得出的结果。根据置信阈值，如果小于50%，则在前面的分类地位前加上unclassfied，写了一个脚本。 allrank_rep_otu_nosingle.fasta_classified.txt为RDP反馈的结果，有需求脚本rdpformat.pl留下邮箱。

sed '1,7d' allrank_rep_otu_nosingle.fasta_classified.txt|sed 's/%//g' |sed 's/"//g' >abc;
perl /sam/usefulscript/rdp_format.pl abc abd;

PS

这里面还有一点我不是太确定，所有的分类地位后面都有一个bootstrap cutoff,大于50%则是一类，小于50%则是unclassfied,是这样吗？我怎么感觉仅仅是针对属来说的呢？在这里留下一个悬念。

参考资料

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn