【3.6.1】宏基因组分类注释的工具比较

February 25, 2022 Annoation 阅读量：次

更多细节内容，参见文献： Analysis of sequencing strategies and tools for taxonomic annotation: Defining standards for progressive metagenomics

相关的代码和数据见： https://github.com/Ales-ibt/Metagenomic-benchmark

使用八种生物信息学工具和四个分类数据库的分类统计测量，定义了一个基准框架，以在标准化环境中评估每种工具
使用对于 16S rRNA 扩增子和整个宏基因组鸟枪法数据的模拟数据，我们比较了不同软件和数据库组合的结果，以检测与算法或数据库注释相关的偏差

一、测试数据集获取

WMS 分析的数据集是从 Lindgreen等人发表的数据中获得的。我们选择了最初包含细菌、古细菌和真核生物基因组的 A1、A2 和 A3 数据集
为了使用扩增子数据集评估每个程序的性能，我们使用 Grinder v0.5.4 软件21从核糖体 16S rRNA 基因的 V3-V4 可变区生成了三个扩增子库。对于计算机PCR，我们使用了引物 SD-Bact-0341-bS-17 和 SD-Bact-0785-aA-21 22，作为模板，我们从 840 个细菌基因组的 gbk 文件中提取了 16 S 核糖体序列。

二、软件

测试了用于WMS数据的四种开源生物信息学工具，MOCAT,Kraken, CLARK, MetaPhlAn2
用于扩增子序列的四种不同软件，QIIME， Parallel-META 2.0，SPINGO，METAXA2

在 Kraken 和 CLARK 的特殊情况下，使用了基于来自 RefSeq 基因组的 k-mer 光谱的特定数据库。Uclust 算法用于 QIIME 管道中的聚类，因为它是默认选项。

所有基于核糖体序列注释的方法都使用公开可用的主要数据库进行了测试：

核糖体数据库项目 (RDP) v11.5 32可在 https://rdp.cme.msu.edu/misc/resources.jsp 获得；
SILVA v128 33可以从 https://www.arb-silva.de/no_cache/download/archive/release_128/ 下载；
GreenGenes (GG) v13.5 34 来自 http://greengenes.secondgenome.com/downloads/database/13_5
Metaxa2软件包中包含的Metaxa2 数据库 (MTX) 。

三、结论

Parallel-meta-MTX 组合是在属水平上分析 V3-V4 16S rRNA 区域的最佳选择，请记住，在物种和亚种等级上，它将呈现更高的错误率和更低的灵敏度。RDP 和 MTX 等较小但高度策划的数据库在灵敏度、特异性和准确性方面改善了测试方法的结果。

几乎所有使用 WMS 数据的方法的整体性能都更好，但在敏感性和特异性之间存在预期的权衡成本。低分类水平的高精度对于宏基因组项目来说可能很方便，特别是如果物种或亚种表征是一个相关目标。但是，重要的是要考虑 WMS 测序方法的一些问题。从宏基因组样本中提取浓度和分子量的 DNA 可能是一个挑战，但对于无扩增测序文库是必要的。此外，如果不是所有存在于所研究宏基因组中的基因组都存在于参考数据库中，这在环境样本中很常见，那么基于 16S 的方法可能会比 WMS 的方法表现更好，因为 16S rRNA 数据库非常广泛。

最后，我们的工作仅限于细菌和古细菌分类，但在现实生活样本中，真核生物的存在可能会导致我们的基准测试中未考虑的其他错误分类问题。这些问题包括属于线粒体或叶绿体基因组的核糖体序列的扩增和错误分类。

参考资料

2018，Analysis of sequencing strategies and tools for taxonomic annotation: Defining standards for progressive metagenomics 。 https://www.nature.com/articles/s41598-018-30515-5

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn