【7.4.4】 BiG-MAP用于分析微生物组中代谢基因簇丰度和表达

October 11, 2021 microbe 阅读量：次

https://github.com/medema-group/BiG-MAP

BIG-MAP：一个自动管道来分析在微生物组代谢基因簇的丰度和表达

摘要

编码初级和次级代谢物的生物合成的微生物的基因簇在塑造微生物生态系统和驱动微生物组相关表型中起关键作用。尽管存在有效的方法通过在其基因组中的代谢的基因簇的鉴定，以评估这种细菌的代谢潜力，没有自动管道存在来分析这样的基因簇的丰度和表达水平微生物样品中，以产生假设他们的功能性作用，并发现群落与感兴趣的表型。在这里，我们描述了 BiG-MAP，这是一种生物信息学工具，用于分析宏基因组和宏转录组数据中基因簇的丰度和表达水平，并评估它们在不同条件下的差异丰度和表达。为了说明它的用处，我们分析了来自健康和与龋齿相关的人类口腔微生物组样本的 47 个宏基因组样本，并确定了 58 个基因簇，包括未报告的基因簇，它们在任一表型中都显着更丰富。其中，我们发现MUC操纵子，已知的被关联到蛀牙的基因簇。此外，我们发现从推定的罗伊氏菌素生物合成基因簇链球菌菌株中富集，但健康样品中不排他地发现; 来自同一样品的代谢组的数据显示与碎裂模式与（聚）一致丙烯醛，这是众所周知的自发形式从罗伊氏途径的产品和先前已显示抑制致病群众变异链球菌株。因此，我们显示BiG-MAP怎么可以用来生成微生物组相关表型的潜在动力新的假设和优先考虑相关的基因簇可介导他们的实验表征。

重要性：微生物在通过产生的小分子，与其他微生物或宿主细胞相互作用，确定宿主的相关表型的日益认识到的作用。生产这些分子通常是编码同线（syntenic ）的基因组区域，也称为基因簇。随着（多）组学数据集可以在一个更深层次的了解帮助复杂的生态系统的日益增多，有必要创建一个可以自动分析跨组学数据集，这些基因簇的加工工具。目前的研究提出了一种新的软件工具，称为BIG-MAP，其中允许使用宏基因组学和metatranscriptomic数据评估微生物样品的基因簇的丰度和表达。在这份手稿中，我们描述了该工具及其功能，以及它是如何使用模拟群落进行验证的。最后，使用口腔微生物组数据集，我们展示了如何使用它来生成关于基因簇在介导宿主表型中的功能作用的假设。

一、前言

菌可产生多样的集合的小分子，与其他微生物或与宿主相互作用的。这些代谢物包括初级和次级代谢的成员和覆盖丰富的化学多样性。这些途径和代谢产物往往是特定于某些菌株或物种，并帮助他们为空间和资源争夺通过抗菌，营养清除或免疫活动。编码这些通路通常在物理簇和也被称为生物合成基因簇（BGCs，Biosynthetic Gene Clusters）或代谢基因簇（的MGC，Metabolic Gene Clusters）的基–后者是一个更广泛的定义也包括分解代谢途径。若干研究已经从这样的基因簇产生的具体表型性状的主要驱动指示的代谢产物; 例如，在糖用甜菜植物的根际假单胞菌显示出产生抗真菌非核糖体肽（NRP）thanamycin，其保护植物免受真菌感染。从初级代谢另一个例子是三甲胺，其是由细菌携带既包括基因簇处理的饮食衍生的分子CUTC和CutD，并已与心血管疾病的痛苦的风险增加有关. 因此，对于BGCs或MGC的挖掘基因组能够在分子水平走向的功能有了更深的了解该领域，并确定了作用，在生态系统中的给定的微生物角色。

一些工具已经开发探索的基因组的基因簇，像antiSMASH ， gutSMASH （https://github.com/victoriapascal/gutsmash/tree/gutsmash/）或DeepBGC 。与其它工具的微生物群落，如HUMAnN2的功能谱，Meta路，FMAP 和Metatrans ，这些不依赖于存在于参考数据库等KEGG通路或MetaCyc ，其中只包含了大多数或所有的酶促步骤已被阐明的途径。事实上，多数通过antiSMASH和gutSMASH编码通路预测许多基因簇鉴定的基因簇的量，催化步骤，中间体和最终产物是未知的。然而，由基因簇编码的已知途径也可以可靠地检测。完整基因簇的代替个别酶编码基因的检测可能降低酶，显示序列相似参考酶序列，但不同的功能的上下文的一部分的假阳性检测。由于这些原因，已知和未知功能的基因簇的鉴定提供了寻找感兴趣的微生物相关的表型的功能性解释的有益基础。由于表型往往是由在生理学相关的代谢物浓度触发，而没有表型样本缺乏这些代谢物，或让他们在低浓度，样品间评估基因群丰度和表达水平是至关重要的预测协会与有关表型。通过组合不同组学数据剖析社会的另一个显著优点是公认的基因簇是非常丰富的或感兴趣的样本表示，因此，帮助阐明新的化合物及其生物合成途径的表征优先。跨样品评估基因簇的丰度和表达水平是至关重要的预测协会与所讨论的表型。

在这里，我们提出了设计的 BiG-MAP（生物合成基因簇元组学丰度分析器），它提供了一个简化的自动化过程，通过将宏基因组和宏转录组读数映射到来自参考基因组的基因簇序列来确定细菌群落中的 BGC/MGC 丰度和表达或宏基因组程序集。BiG-MAP 使用基于 MinHash 的冗余过滤，并使用 BiG-SCAPE 将 BGC 分组到系列中以避免模棱两可的映射，并使用这些来输出和可视化跨样本的 MGC 丰度或表达水平的概况。此外，它使用参数或非参数检验计算差异丰度或表达。我们使用模拟宏基因组数据验证了该工具，并展示了如何准确概括 MGC 丰度和表达水平。最后，为了展示其实用性，我们将 BiG-MAP 应用于来自人类口腔微生物组的大型公开宏基因组数据集，并描述了它如何成功识别与细菌的特化初级和次级代谢相关的基因簇，这些基因簇（可能）与龋齿发展相关。其中，该集合包括先前报告的pdu和参与罗伊氏蛋白合成和粘液操纵子的钴胺素基因簇，分别由gutSMASH 和antiSMASH 预测的基因簇。因此，BiG-MAP 提出了新的思路来进一步探索口腔的发生和发展。

三、方法

BIG-MAP 作为命令行包在 Python 3 中实现。
它由四个模块组成：BiG-MAP.download、BiG-MAP.family、BiG-MAP.map 和 BiG-MAP.analysis

Big-MAP.download：数据收集

该模块允许使用 SRA 工具包 ( https://github.com/ncbi/sra-tools )检索 SRA 数据库中存在的测序数据。为了初步开发、测试和验证这一点，我们使用了一个 IBD 队列，其中包含来自 78 个人的宏基因组和宏转录组数据，其中 21 名患有 UC，46 名患有 CD 和 11 名健康样本46。这些样品是使用 BioProject PRJNA389280 工具下的 SRA 登录 ID 检索的

Big-MAP.family：创建一个非冗余的 MGC 代表集合

family 模块使用包含 antiSMASH 或gutSMASH 算法输出的基因簇预测的目录作为输入（ https://github.com/victoriapascal/gutsmash ）。
然后根据它们的相互序列相似性对预测的基因簇进行冗余过滤步骤。为此，提取基因簇的蛋白质序列并将其用作 MASH 草图的输入，该草图从原始序列创建草图。然后使用草图使用 MASH dist 计算序列之间的距离。生成的带有成对距离比较的制表符分隔文件用于将具有高于 0.8 默认相似度截止值的基因簇组合在一起（参见图 2）。
接下来，为了选择每个组的最佳代表，计算中心点（见下面的公式）。为此，创建一个距离矩阵来比较基因簇对之间的所有距离；选择累积距离值最小的那个作为该组的代表。
此外，选定的基因簇使用 BiG-SCAPE 进行另一轮聚类，以 0.3 相似度截止值（默认值）将基因簇分组为 GCF，从中挑选随机代表。

嵌入图像

BiG-MAP.map：将读取映射到非冗余基因簇集合

该模块依赖 Bowtie2 21（版本 2.3.4.3）将读取对齐到给定序列。从 medoid 计算选择的参考基因簇序列中，创建 Bowtie 索引文件。接下来，Bowtie2 将读取对齐到这些默认使用快速对齐模式的索引文件。生成的对齐以 SAM 格式存储并转换为 BAM 格式，以便稍后由 SAMtools 49（版本 1.9）解析。然后按最左边的坐标对比对进行排序，对比对的读数连续通过 GCF 和基因簇大小进行计数和校正。稍后，校正后的原始计数将转换为 TPM 计数（每千碱基百万的转录本）并连续转换为 RPKM（每千碱基百万读取）计数以说明测序深度。

此模块中添加的另一个功能是使用排序的 BAM 文件中的坐标计算每个基因簇的读取覆盖率。为此，使用 BEDtools 50 (v2.28.0)将排序的对齐文件转换为床图，通过将未覆盖的碱基数 ( ncb )减去未覆盖的碱基数 ( ncb ) 来估计每个簇的覆盖碱基数 ( coverage )每个簇的长度 ( cl ) 如下面的公式所示。

嵌入图像

遵循相同的程序来计算 RPKM 计数和基因簇内核心基因的覆盖率，严格考虑每个基因簇内的核心代谢基因。该信息取自 antiSMASH/gutSMASH（或任何其他“SMASH”相关算法）Genbank 输出文件，这些文件标记了合成给定分子所需的关键编码基因。一旦确定了核心基因，就可以使用 SAMtools 检索有关它们的比对信息。接下来，以与计算整个基因簇的 RPKM 相同的方式，提取与核心区域对齐的读数，计数并校正，最终得到 RPKM 计数。为了执行覆盖率计算，从床图中提取核心基因的位置以使用上述公式评估覆盖率分数。

BiG-MAP.analysis：RPKM 计数的标准化和发现差异表达/丰富的 MGC

为了解释稀疏的高通量测序 RPKM 使用来自 R Bioconductor 包 MetagenomeSeq 22 的累积总和缩放 (CSS) 进行归一化. BiG-MAP 提供了两种不同的统计数据来解释不同丰度/表达的基因簇，即假设值正态分布的参数零膨胀高斯分布混合模型（ZIG 模型）或非参数 Kruskal-Wallis 检验。因此，预计基因簇丰度/表达的变化相对较小，ZIG 模型值通过 log2 倍数变化进行调整，最终有助于将模型拟合到对数正态分布。或者，Kruskal-Wallis 可以在归一化的 RPKM 计数上运行，这允许评估一个组的等级分布是否与另一组的等级分布有显着差异。此外，还应用 FDR 校正来校正多假设检验。最后，使用 Seaborn python 包生成热图以可视化结果 . https://github.com/mwaskom/seaborn).

使用模拟社区测试 BiG-MAP 性能

参考资料

2021，BiG-MAP: an automated pipeline to profile metabolic gene cluster abundance and expression in microbiomes。 https://www.biorxiv.org/content/10.1101/2020.12.14.422671v1.full

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn