【3.1.3】tRNA的预测--tRNAscan-SE

1. tRNAscan-SE 简介

tRNAscan-SE 能在基因组水平上进行tRNA扫描。该软件实际上是一个perl 脚本,整合了tRNAscanEufindRNACove 这3个独立的tRNA检测软件。tRNAscan-SE 首先调用 tRNAscan和EufindRNA鉴定基因组序列中 tRNA区域,然后调用Cove进行验证。这样既保证了前者的sensitivities, 又保证了后者较低的假阳性概率,同时在搜索速度上提升了很多。

有关tRNAscan-SE 的详细说明,参考其本地化软件包中的 man 文档。 tRNAscan-SE 的网页版,但一次最多只能进行5M bp 序列的 tRNA 预测。(我的3M的数据还弄了半天搞不定,建议本地化)

2. tRNAscan-SE 本地安装

$ wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz
 ##你也可以从http://lowelab.ucsc.edu/tRNAscan-SE/中source code点击下载
$tar zxf tRNAscan-SE.tar.gz
$cd tRNAscan-SE-1.3.1

首先修改makefile文件,修改里面的内容,你也可以手动修改,下面的命令式将$(HOME)改为/sam/tRNAscanSE

$ perl -p -i -e 's#\$\(HOME\)#/sam/tRNAscanSE#' Makefile   $ make && make install

#测试
$ make testrun   

#修改环境变量
 $ echo 'PATH=$PATH:/sam/tRNAscanSE /bin/' >> ~/.bashrc
 $ echo 'PERL5LIB=$PERL5LIB:/sam/tRNAscanSE/bin/' >> ~/.bashrc
 $ source ~/.bashrc

3. tRNAscan-SE 的使用

常用例子与主要参数:

$ tRNAscan-SE -o tRNA.out -f rRNA.ss -m tRNA.stats genome.fasta

-A 适合于古细菌。该参数选择了古细菌特异性的covariance model(cm),同时稍微放宽了 EufindtRNA 的 cutoffs。
 -B 适合于细菌。<span style="color: #ff0000;">默认情况下,不选择,-A -B -G 或 -O 参数,则适合于真核生物。</span>
 tRNAscan-SE -B -o tRNA.out -f rRNA.ss -m tRNA.stats genome.fasta
 -G 适合于古细菌,细菌和真核生物的混合序列。该参数使用 general tRNA covariance model。
 tRNAscan-SE -G -o tRNA.out -f rRNA.ss -m tRNA.stats genome.fasta
 -O 适合于线粒体和叶绿体。选择该参数,则仅使用 Cove 进行分析,搜索速度会很慢,同时也不能给出 pseudogenes 检测。   
-i 使用 Infernal cm analysis only。该参数设置后,需要 cmsearch 命令,但是 tRNAscan-SE 软件包中貌似没有该程序,最终无法运行。
 -C 仅使用 Cove 进行 tRNA 分析。虽然从一定程度上提高了准确性,但是会极慢,当然不建议了。
 -o 将结果保存到文件。
 -f 将 tRNA 的二级结构结果保存到文件
 -m 将统计结果保存到文件。

4. tRNAscan-SE 的结果说明

生成的有一个统计文件(包含trnascan, eufindtrna and cove). The summary data includes counts of the total number of tRNAs found, the number of tRNA pseudogenes found, number of tRNAs with introns and which anticodons were detected. Finally, the output shows the predicted secondary structure for each identified sequence. With an additional click on the “View tRNA” button to the right of each tRNA, a two-dimensional representation of the tRNA structure can be displayed, producing the familiar tRNA clover-leaf structure. The output also displays the overall length of the sequence, the location of the anticodon and the overall tRNAscan-SE score. tRNAscan-SE scores for known tRNA sequences for various species are included on the website to facilitate evaluation of the significance of the score.

tRNA.out(-o参数后面生成的文件)

Sequence tRNA Bounds tRNA Anti Intron Bounds Cove
 Name tRNA # Begin End Type Codon Begin End Score
 -------- ------ ---- ------ ---- ----- ----- ---- ------
Your-seq 1 1 73 Ala AGC 0 0 74.48

在真核生物中,tRNA 由 RNA 聚合酶III 在核内转录生成 pre-tRNA, 再进行加工生成有功能的 tRNA 分子(特别是一些 tRNA 序列还含有内含子)。若 tRNA 存在内含子,则结果文件中第 7 8 列会给出内含子区间,否则其值为 0 。

tRNAscan-SE 的结果中, 如果 begin 比 end 的值大,则表示 tRNA 在负义链上。有些结果中第5 列为 pseudogene, 这表示其一级或二级结构比较差。最后一列是 Cove Score,该分值最低阈值为 20 。该值是一个 log ratio值。ratio 是符合 tRNA。covariance model概率与随机序列模型概率的比值。当然,最后最好是将表格格式结果转换为 GFF3 结果,以利于在基因组上的可视化

tRNA.stats (-m参数后生成的文件)

--------
Overall scan speed: 730.0 bp/sec
tRNAs decoding Standard 20 AA: 1
Selenocysteine tRNAs (TCA): 0
Possible suppressor tRNAs (CTA,TTA): 0
tRNAs with undetermined/unknown isotypes: 0
Predicted pseudogenes: 0
-------
Total tRNAs: 1
tRNAs with introns: 0

Isotype / Anticodon Counts:
Ala : 1 AGC: 1 GGC: CGC: TGC:

------------------------------------------------------------------------

Predicted tRNA Secondary Structures(-f rRNA.ss):
Your-seq.trna1 (1-73) Length: 73 bp
Type: Ala Anticodon: AGC at 34-36 (34-36) Score: 74.48
* | * | * | * | * | * | * |
Seq: GGGCGTGTGGCGTAGTCGGTAGCGCGCTCCCTTAGCATGGGAGAGGtCTCCGGTTCGATTCCGGACTCGTCCA
Str: >>>>>.>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<.<<<<<.
文件中的二级结构使用大于号或小于号表示互补配对区域,使用点号表示环形域或非互补配对区域。

额外的补充

Munual.ps文件详尽的介绍了用法,但是这个文件格式为.ps,很神奇的一个格式。 .ps文件就是指这个文件已经用PostScript语言处理过了,可以直接在PostScript打印机上输出(相当于文本文件加上HTML标记后就成了HTML文件一样)。例如我们只需用下面命令:copy/b name.ps prn即可把一个.ps在PostScript打印机上打印出来。PostScript是一种页面描述语言,由Adobe公司于1985年开发成功(Adobe正是靠PostScript起家的)PostScript最重要的用途是以设备无关方式描述图形,这样,同一个描述可以不加修改地在任一台PostScript打印机上输出。另外,用PostScript还可以在计算机屏幕及其它绘图设备上绘图,可以在屏幕上显示相应的PostScript文件。PostScript由于可以满足上述条件,所以在网上广为流行。*.ps是网上广为流传的文件格式,如何使用这种文件格式呢?下面介绍一个最著 腜ostScript实用工具Ghostscript。

http://www.yesky.com/37/23037.shtml

五、讨论

GtRNAdb (tRNAscan-SE analysis of complete genomes),可以查看物种基因组的tRNA的基因

http://gtrnadb.ucsc.edu/

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn