【5.2.1.5】CAZyme的注释
CAZyme是一个关乎Carbohydrate-Active Enzymes的数据库, CAZyme的数据来源于CAZyDB:www.cazy.org; 而对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。
对CAZyme的注释步骤如下:
1. 从dbCAN中下载HMMs数据库
打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。
wget http://csbl.bmb.uga.edu/dbCAN/download/all.hmm.ps.len
wget http://csbl.bmb.uga.edu/dbCAN/download/dbCAN-fam-HMMs.txt
wget http://csbl.bmb.uga.edu/dbCAN/download/hmmscan-parser.sh
chmod 755 *.sh
##all.hmm.ps.len 为所有CBM蛋白模型的长度
dbCAN-fam-HMMs.txt所有相关蛋白的马尔科夫数据库(每个蛋白一个结构),HMMs for 333 dbCAN families (330 CAZyme families + 3 cellulosome modules)
hmmscan-parser.sh用于过滤结果的一个脚本
2. 下载hmmer软件
从http://hmmer.org/下载hmmer3.0rc2并安装。 具体安装参见之前的博文:http://blog.sina.com.cn/s/blog_670445240101klon.html
###3. 对目的蛋白质序列进行注释
目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为
$ hmmpress dbCAN-fam-HMMs.txt
##对数据库的处理,以后分析就下面的两步了
$ hmmscan dbCAN-fam-HMMs.txt species_protein.fasta > CAZyme.dbCAN
##我在运行下一步的命令的时候报错(Ilegal division by zero at -e line,<>line1)。可以在运行hmmsan的时候对输出结果进行控制。例如输出类似blast形式。此外还有E值的设定,例如:hmmscan –tblout CAZYme.txt -E 10-20 dbCAN-fam-HMMs.txt your.fasta (10-20选一个值).这个报错的原因根本在于all.hmm.ps.len没有跟hmmscan-parser.sh在一个文件夹里。我当时cd到了另一个文件夹,然后用绝对路径引用hmmscan-parser.sh,所以找到不到all.hmm.ps.len而报错
$ sh hmmscan-parser.sh CAZyme.dbCAN > CAZyme.annot
4.结果文件
默认的设置下,hmmscan-parser.sh对hmmer结果进行了过滤。阈值:如果比对长度>80aa,则E_value<1e-5,否则E_value<1e-3;同时对HMM模型的覆盖度的比例>0.3 CAZyme_species.annot的文件内容如下:
scaffold_1.30 GH28.hmm 1.5e-58 9 308 60 361 0.92
scaffold_1.30.1 GH28.hmm 1.5e-58 9 308 60 361 0.92
scaffold_1.90 GT32.hmm 1.2e-23 2 87 81 161 0.944444444444444
scaffold_1.94 GH18.hmm 3.5e-64 5 288 127 486 0.956081081081081
scaffold_10.18 GH105.hmm 1.1e-84 14 332 49 392 0.957831325301205
scaffold_10.20 CBM1.hmm 9.1e-14 1 29 26 54 0.96551724137931
scaffold_100.3 GT15.hmm 4.5e-126 1 272 75 345 0.992673992673993
scaffold_100.3.1 GT15.hmm 5.4e-105 1 240 75 313 0.875457875457875
scaffold_100.4 GT15.hmm 1.4e-128 1 272 70
每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。 这里面还是有几条序列是重名的,也就是没有确定这个序列到底归属于哪一个hmm、但你仔细看一下就发现,尽管一条序列可能匹配上好几个Hmm.但是是不同区段匹配上的,所以结果仍然被保留了、
根据所属的家族可以在 http://www.cazy.org/网页上搜相关的信息,以及该家族所归属的EC.
Modules that catalyze the breakdown, biosynthesis or modification of carbohydrates and glycoconjugates:
- Glycoside Hydrolases (GHs) : hydrolysis and/or rearrangement of glycosidic bonds (see CAZypedia definition) 配糖体水解酶
- GlycosylTransferases (GTs) : formation of glycosidic bonds (see definition)
- Polysaccharide Lyases (PLs) : non-hydrolytic cleavage of glycosidic bonds
-Carbohydrate Esterases (CEs) : hydrolysis of carbohydrate esters
- AuxiliaryActivities (AAs) : redox enzymes that act in conjunction with CAZymes.
Associated Modules currently covered
Carbohydrate-active enzymes often display a modular structure with non-catalytic modules appended to the enzymes above
-Carbohydrate-Binding Modules (CBMs) : adhesion to carbohydrates
ps:这个hmmscan-parser.sh感觉好霸气啊,看不懂啊,看不懂,过两天花点时间看一下
如何根据注释归纳出一篇SCI,这个感觉有点难度额
参考资料
Chenlianfu博客 http://www.chenlianfu.com/?p=1376(超赞)
YucaiFan博客 http://blog.sina.com.cn/s/blog_83f77c940101qngu.html
http://csbl.bmb.uga.edu/dbCAN/download.php 网站的Readme文件
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn