【7.2.2】抗生素和次级代谢物分析--antiSMASH

sam点评: 这个数据库和注释工具,值得好好推敲一下。

antiSMASH: The antibiotics & Secondary Metabolite Analysis Shell

官网: https://docs.antismash.secondarymetabolites.org

次级代谢产物是指生物生长到一定阶段后通过次级代谢合成的分子结构十分复杂、对该生物无明显生理功能,或并非是该生物生长和繁殖所必需的小分子物质,如抗生素、毒素、激素、色素等。不同种类的生物所产生的次级代谢产物不相同,它们可能积累在细胞内,也可能排到外环境中。

一、antiSMASH数据库介绍

antiSMASH( http://antismash.secondarymetabolites.org/ )旨在分析基因组的次级代谢产物合成基因簇,包含细菌、真菌和植物。可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测;源于微生物的天然产品经常用于抗菌和抗癌药物、杀虫剂、除草剂或杀菌剂。自2011年首次发布以来,antiSMASH已成为次级代谢物基因组挖掘的标准工具,并且是目前使用最广泛的工具。2019年初,antiSMASH数据库也已经更新到第2版了,新版收录了6200个细菌基因组完成图和18576个草图基因组的注释,提供了更新的SANDPUMA检测规则、ClusterBlast数据库链接、TTA密码子预测、NRPS-A域预测、萜类的分类以及MIBiG的改进链接。

antiSMASH使用基于规则聚类检测,通过核心生物合成酶来鉴定45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合酶(nonribosomal peptide synthases)、I型聚酮化合物(type I polyketides)、萜类(terpenes)、羊毛硫肽(lanthipepteptides)、硫肽(thiopeptide),半乳糖肽(sactipepteptides)和套索肽(lassopepteptes),antiSMASH还提供了对它们生物合成基因簇(BGC)产物的更详细的预测。antiSMASH使用内置的ClusterBlast算法,将识别的目标簇与antiSMASH数据库中已知簇进行比较;KnownClusterBlast算法将识别的目标簇与MIBiG数据库中已知簇进行比较。直系同源组(smCoG)分类的次级代谢产物簇用于为预测的基因簇中的基因产物分配功能。

二、在线预测

https://antismash.secondarymetabolites.org/#!/start

三、本地化安装与使用

3.1 安装(未测试)

antiSMASH 既是数据库也是软件,官方安装详细文档 ( https://docs.antismash.secondarymetabolites.org/install/ )

安装方法有多种,其中推荐使用Bioconda进行安装,方便快捷。antiSMASH的这点非常好,将其所依赖的环境、模块及数据库打包在Bioconda里面了,并且也保持一直在更新。

#首先需要保证本地安装了 conda,例如 miniconda

#https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/

#加载 miniconda 环境变量后,使用 conda 中添加 biopython,若已存在则可跳过

conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
#根据官方文档,在 conda 中创建 antismash 环境并下载安装 antiSMASH

conda create -n antismash antismash
source activate antismash
download-antismash-databases
source deactivate antismash
#若中间没断开没报错,则 antiSMASH可以正常运行了

#运行前记得首先加载 miniconda 环境变量(可在 ~/.bashrc 中设置自动加载)

#使用“source activate”加载 antismash 环境,并简要查看是否可以正常运行

source activate antismash
antismash -h
#运行完时记得“source deactivate”退出antismash 环境

3.2 参数说明

使用“antismash -h”查看帮助,基本信息如下。

此处的antiSMASH版本v5.1.1,以下介绍主要参数。(仅供参考)

--help:帮助选项。
--cpu:antiSMASH运行时的线程数,默认16。

输入文件(基因组数据):

GenBank、EMBL或FASTA格式的基因组数据。推荐使用GenBank或者EMBL格式的基因组数据,因这两种格式的数据中相较于FASTA文件而言所包含的信息更全面,如包含了CDS区所编码的氨基酸等,结果(如基因序列获取及比对分析等)更准确可靠。

必选参数,基础选项:
--taxon:指明微生物类型,细菌(bacteria)或真菌(fungi)。

可选参数,与antiSMASH的调用算法有关:
--fullhmmer:运行全基因组HMMer分析。

--cassis:使用CASSIS算法预测基因簇边界(**真菌)

--cf-borders-only:仅注释现有簇

--cf-create-clusters:寻找额外簇

--clusterhmmer:运行簇的HMMer分析

--smcog-trees:寻找簇的直系同源群

--tta-threshold:运行TTA密码子检测模块。

--cb-general:将预测的簇与antiSMASH现有的簇进行比较。

--cb-subclusters:将已识别的基因簇与已知负责合成前体物质的子簇进行比对。

--cb-knownclusters:将已识别的基因簇与MIBiG数据库中的已知基因簇进行比对。

--asf:运行活性中心(active site)检测模块。

--pfam2go:运行pfam模块

输出选项,与antiSMASH的结果输出有关,请根据需求考虑:
--output-dir:结果输出路径,不指定则默认当前工作路径。

--html-title:自定义输出网页的名字,默认样本名

--html-description:自定义输出网页的描述

基因查找选项(已注释到ORF的文件忽略)
--genefinding-tool:基因预测工具选择

--genefinding-gff3:指定gff3文件的特征

3.3 命令行介绍

https://docs.antismash.secondarymetabolites.org/command_line/

运行1:Fast run

不加任何参数运行,只运行核心模块等,耗时选项不会运行,因此运行时间很短就可以得到结果。

source activate antismash        #加载环境
antismash sequence.gb            #运行
source activate antismash        #退出环境

全部选项都要运行,时间较长

source activate antismash
antismash --cb-general --cb-knownclusters --cb-subclusters --asf --pfam2go --smcog-trees sequence.gb 
source activate antismash

四、结果说明

index.html:antiSMASH生成的交互式网页报告,包含了本次注释结果的大部分详细信息;

clusterblastoutput.txt:基因组与antiSMASH基因簇数据集的比对结果;

clusterblast(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容;

knownclusterblastoutput.txt:基因组与MIBiG数据库中的已知基因簇的blast比对结果;

knownclusterblast(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容;

subclusterblastoutput.txt:基因组与已知负责合成前体物质的子簇的比对结果;

*.gbk:以gbk格式展示基因组中所有基因簇及基因信息;

*region0*gbk:以gbk格式,将每个基因簇的内容单独展示;

css、images、js、svg等其它文件夹及文件:主要为网页版报告的配置文件

五、报错

六、我的案例

七、讨论

参考资料

https://blog.csdn.net/woodcorpse/article/details/75577289 https://blog.csdn.net/woodcorpse/article/details/90748970

http://wap.sciencenet.cn/blog-3334560-1182769.html

https://docs.antismash.secondarymetabolites.org/

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学