tRNA的预测–tRNAscan-SE

1. tRNAscan-SE 简介

tRNAscan-SE 能在基因组水平上进行tRNA扫描。该软件实际上是一个perl 脚本,整合了tRNAscanEufindRNACove 这3个独立的tRNA检测软件。tRNAscan-SE 首先调用 tRNAscan和EufindRNA鉴定基因组序列中 tRNA区域,然后调用Cove进行验证。这样既保证了前者的sensitivities, 又保证了后者较低的假阳性概率,同时在搜索速度上提升了很多。

     有关tRNAscan-SE 的详细说明,参考其本地化软件包中的 man 文档。
tRNAscan-SE 的网页版,但一次最多只能进行5M bp 序列的 tRNA 预测。(我的3M的数据还弄了半天搞不定,建议本地化)

2. tRNAscan-SE 本地安装

3. tRNAscan-SE 的使用

常用例子与主要参数:

4. tRNAscan-SE 的结果说明

生成的有一个统计文件(包含trnascan, eufindtrna and cove). The summary data includes counts of the total number of tRNAs found, the number of tRNA pseudogenes found, number of tRNAs with introns and which anticodons were detected. Finally, the output shows the predicted secondary structure for each identified sequence. With an additional click on the “View tRNA” button to the right of each tRNA, a two-dimensional representation of the tRNA structure can be displayed, producing the familiar tRNA clover-leaf structure. The output also displays the overall length of the sequence, the location of the anticodon and the overall tRNAscan-SE score. tRNAscan-SE scores for known tRNA sequences for various species are included on the website to facilitate evaluation of the significance of the score.

tRNA.out(-o参数后面生成的文件)

在真核生物中,tRNA 由 RNA 聚合酶III 在核内转录生成 pre-tRNA, 再进行加工生成有功能的 tRNA 分子(特别是一些 tRNA 序列还含有内含子)。若 tRNA 存在内含子,则结果文件中第 7 8 列会给出内含子区间,否则其值为 0 。

tRNAscan-SE 的结果中, 如果 begin 比 end 的值大,则表示 tRNA 在负义链上。有些结果中第5 列为 pseudogene, 这表示其一级或二级结构比较差。最后一列是 Cove Score,该分值最低阈值为 20 。该值是一个 log ratio值。ratio 是符合 tRNA。covariance model概率与随机序列模型概率的比值。当然,最后最好是将表格格式结果转换为 GFF3 结果,以利于在基因组上的可视化

tRNA.stats (-m参数后生成的文件)
——–
Overall scan speed: 730.0 bp/sec
tRNAs decoding Standard 20 AA: 1
Selenocysteine tRNAs (TCA): 0
Possible suppressor tRNAs (CTA,TTA): 0
tRNAs with undetermined/unknown isotypes: 0
Predicted pseudogenes: 0
——-
Total tRNAs: 1
tRNAs with introns: 0

Isotype / Anticodon Counts:
Ala : 1 AGC: 1 GGC: CGC: TGC:

————————————————————————

Predicted tRNA Secondary Structures(-f rRNA.ss):
Your-seq.trna1 (1-73) Length: 73 bp
Type: Ala Anticodon: AGC at 34-36 (34-36) Score: 74.48
* | * | * | * | * | * | * |
Seq: GGGCGTGTGGCGTAGTCGGTAGCGCGCTCCCTTAGCATGGGAGAGGtCTCCGGTTCGATTCCGGACTCGTCCA
Str: >>>>>.>..>>>>……..<<<<.>>>>>…….<<<<<…..>>>>>…….<<<<<<.<<<<<.
文件中的二级结构使用大于号或小于号表示互补配对区域,使用点号表示环形域或非互补配对区域。

额外的补充
Munual.ps文件详尽的介绍了用法,但是这个文件格式为.ps,很神奇的一个格式。
*.ps文件就是指这个文件已经用PostScript语言处理过了,可以直接在PostScript打印机上输出(相当于文本文件加上HTML标记后就成了HTML文件一样)。例如我们只需用下面命令:copy/b name.ps prn即可把一个*.ps在PostScript打印机上打印出来。PostScript是一种页面描述语言,由Adobe公司于1985年开发成功(Adobe正是靠PostScript起家的)PostScript最重要的用途是以设备无关方式描述图形,这样,同一个描述可以不加修改地在任一台PostScript打印机上输出。另外,用PostScript还可以在计算机屏幕及其它绘图设备上绘图,可以在屏幕上显示相应的PostScript文件。PostScript由于可以满足上述条件,所以在网上广为流行。*.ps是网上广为流传的文件格式,如何使用这种文件格式呢?下面介绍一个最著 腜ostScript实用工具Ghostscript。
http://www.yesky.com/37/23037.shtml

参考资料:

http://www.chenlianfu.com/?p=2177(超赞)
http://lowelab.ucsc.edu/tRNAscan-SE/trnascanseReadme.html
下载的软件中有一个Munual.ps

发表评论

电子邮件地址不会被公开。 必填项已用*标注