CAZyme的注释

CAZyme是一个关乎Carbohydrate-Active Enzymes的数据库, CAZyme的数据来源于CAZyDB:www.cazy.org; 而对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。

对CAZyme的注释步骤如下:

1. 从dbCAN中下载HMMs数据库

打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。

wget http://csbl.bmb.uga.edu/dbCAN/download/all.hmm.ps.len
wget http://csbl.bmb.uga.edu/dbCAN/download/dbCAN-fam-HMMs.txt
wget http://csbl.bmb.uga.edu/dbCAN/download/hmmscan-parser.sh
chmod 755 *.sh

##all.hmm.ps.len 为所有CBM蛋白模型的长度

dbCAN-fam-HMMs.txt所有相关蛋白的马尔科夫数据库(每个蛋白一个结构),HMMs for 333 dbCAN families (330 CAZyme families + 3 cellulosome modules)

hmmscan-parser.sh用于过滤结果的一个脚本

2. 下载hmmer软件

http://hmmer.org/下载hmmer3.0rc2并安装。 具体安装参见之前的博文:http://blog.sina.com.cn/s/blog_670445240101klon.html

###3. 对目的蛋白质序列进行注释

目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为

$ hmmpress dbCAN-fam-HMMs.txt

##对数据库的处理,以后分析就下面的两步了

$ hmmscan dbCAN-fam-HMMs.txt species_protein.fasta > CAZyme.dbCAN

##我在运行下一步的命令的时候报错(Ilegal division by zero at -e line,<>line1)。可以在运行hmmsan的时候对输出结果进行控制。例如输出类似blast形式。此外还有E值的设定,例如:hmmscan –tblout CAZYme.txt -E 10-20 dbCAN-fam-HMMs.txt your.fasta (10-20选一个值).这个报错的原因根本在于all.hmm.ps.len没有跟hmmscan-parser.sh在一个文件夹里。我当时cd到了另一个文件夹,然后用绝对路径引用hmmscan-parser.sh,所以找到不到all.hmm.ps.len而报错

$ sh hmmscan-parser.sh CAZyme.dbCAN > CAZyme.annot

4.结果文件

默认的设置下,hmmscan-parser.sh对hmmer结果进行了过滤。阈值:如果比对长度>80aa,则E_value<1e-5,否则E_value<1e-3;同时对HMM模型的覆盖度的比例>0.3 CAZyme_species.annot的文件内容如下:

scaffold_1.30   GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.30.1 GH28.hmm        1.5e-58 9       308     60      361     0.92
scaffold_1.90   GT32.hmm        1.2e-23 2       87      81      161     0.944444444444444
scaffold_1.94   GH18.hmm        3.5e-64 5       288     127     486     0.956081081081081
scaffold_10.18  GH105.hmm       1.1e-84 14      332     49      392     0.957831325301205
scaffold_10.20  CBM1.hmm        9.1e-14 1       29      26      54      0.96551724137931
scaffold_100.3  GT15.hmm        4.5e-126        1       272     75      345     0.992673992673993
scaffold_100.3.1        GT15.hmm        5.4e-105        1       240     75      313     0.875457875457875
scaffold_100.4  GT15.hmm        1.4e-128        1       272     70

每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。 这里面还是有几条序列是重名的,也就是没有确定这个序列到底归属于哪一个hmm、但你仔细看一下就发现,尽管一条序列可能匹配上好几个Hmm.但是是不同区段匹配上的,所以结果仍然被保留了、

根据所属的家族可以在 http://www.cazy.org/网页上搜相关的信息,以及该家族所归属的EC.

Modules that catalyze the breakdown, biosynthesis or modification of carbohydrates and glycoconjugates:
- Glycoside Hydrolases (GHs) : hydrolysis and/or rearrangement of glycosidic bonds (see CAZypedia definition)  配糖体水解酶 
- GlycosylTransferases (GTs) : formation of glycosidic bonds (see definition)
- Polysaccharide Lyases (PLs) : non-hydrolytic cleavage of glycosidic bonds
-Carbohydrate Esterases (CEs) : hydrolysis of carbohydrate esters
- AuxiliaryActivities (AAs) : redox enzymes that act in conjunction with CAZymes.

Associated Modules currently covered
Carbohydrate-active enzymes often display a modular structure with non-catalytic modules appended to the enzymes above

-Carbohydrate-Binding Modules (CBMs) : adhesion to carbohydrates

ps:这个hmmscan-parser.sh感觉好霸气啊,看不懂啊,看不懂,过两天花点时间看一下

如何根据注释归纳出一篇SCI,这个感觉有点难度额

参考资料:

Chenlianfu博客 http://www.chenlianfu.com/?p=1376(超赞)

YucaiFan博客 http://blog.sina.com.cn/s/blog_83f77c940101qngu.html

http://csbl.bmb.uga.edu/dbCAN/download.php 网站的Readme文件

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学