1.1 OTU的定义与解读

August 18, 2019 16S 阅读量：次

一、OTU历史背景

Sneath-Sokal OTU

操作分类单元（Operational Taxonomic Unit，OTU）的概念是由Peter Sneath和Robert Sokal在20世纪60年代通过一系列书籍和文章引入的，这些书籍和文章创立了数值分类学领域（numerical taxonomy）（参见例如Sneath＆Sokal：Numerical Taxonomy，WH Freeman，1973）。他们的目标是制定一个定量策略，根据观察到的特征将生物分类成组，创建一个层次分类，尽可能忠实地反映生物之间的进化关系。 Sneath-Sokal OTU是通过制作一个可用数值描述的观察到的特征表来构建的;例如，1 =存在，0 =不存在。层次结构（树）是通过根据它们共有的特征数重复合并最相似的组来构建的。这是应用于生物分类的凝聚聚类算法（agglomerative clustering algorithm ）的早期例子。 Sokal和Sneath在DNA序列可用之前，以及在开发更准确的基于特征和序列的系统发育树（phylogenetic tree construction algorithms）构建算法（例如邻接（neighbor-joining ）和最大似然（maximum likelihood.））之前工作。

历史97％的identity threshold

在16S测序中，OTU通常使用97％的identity threshold。据我所知，第一次提到这个threshold是在（Stackebrandt和Goebel 1994）。如果您知道早期参考97，请告诉我。 Stackebrandt和Goebel发现，16S序列的97％相似性大约相当于70％的DNA重新关联值（DNA reassociation value），这在以前被认为是细菌物种的working definition（Wayne等，1987）。

现代OTU identity threshold

2014年进行的分析发现，通过聚类全长16S序列，近似物种的最佳阈值为98.5％（Yarza等，2014）。然而，这项研究是使用CD-HIT（Li和Godzik 2006）完成的，CD-HIT基于SILVA数据库中的分类学预测，其序列identity存在问题，其中大约五分之一是错误的（Edgar 2018a）。在最近的一篇论文中，我发现最佳聚类阈值对于全长序列是~99％同一性，对于V4是约100％（Edgar 2018b）。

通过聚类16S序列构建的OTU

我知道用于聚类16S序列的最早的软件程序是FastGroup（Seguritan和Rohwer，2001）。 FastGroup使用类似于UCLUST的贪婪聚类算法。identity阈值为97％，作者引用了Stackebrandt和Goebel。
DOTUR（Schloss和Handlesman，2005）是mothur的先驱（Schloss et al.2009），使用凝聚聚类(agglomerative clustering )，可选择使用最大，最小或平均连锁(maximum, minimum or average linkage)。 DOTUR和mothur在一系列identity阈值下产生OTU，注意到（DOTUR论文）“具有超过97％ identity的[序列通常分配给同一物种，具有95％同一性的那些通常被分配到同一属，那些具有80％ identity的通常被分配到同一个门，尽管这些区别是有争议的“。
QIIME（Caporaso等人，2010）几乎完全使用97％的阈值。早期版本的QIIME使用CD-HIT作为默认的OTU聚类方法，后来被UCLUST取代（Edgar 2013）。我没有在他们的论文或文件中找到任何关于QIIME OTU的预期解释的描述（如果我错过了，请告诉我）。

OTU作为物种的 working definition

想象一下它是20世纪90年代，我们通过PCR和Sanger测序获得了16S序列。那时，公共存储库中可用的16S序列相对较少，因此大多数都无法通过数据库搜索来识别。一种实用的替代方案是使集群具有97％的同一性。这些聚类可以被视为Sneath-Sokal OTU，它暂时将序列分配给物种和更高级别的群体。如果，但仅当序列中的实验误差不显着时，这是一种合理的方法。在早期文献中，很少（从不？）考虑错误。据推测，这是因为Sanger测序具有非常低的错误率，还有一个原因，因为PCR导致的错误，特别是嵌合体，在90年代并不广为人知（Ashelford等人，2005）。

next-generation reads的OTU

新一代测序（NGS）于20世纪90年代末出现，并通过对16S基因进行低成本，高通量测序，彻底改变了微生物学。与Sanger测序相比，这些优点以更短的读取长度和更高的错误率为代价。 OTU聚类方法应用于NGS读数，但逐渐变得清楚的是，这些方法由于实验误差而产生许多假的OTU，导致多样性的夸大估计（参见例如Huse等人2010）。在撰写本文时（2017年中），一些广泛使用的方法继续产生大量的虚假OTU，尤其是QIIME，它使用推荐的程序，20种模拟物种，Illumina测序结果产生了数百或数千个OTU。

Westcott和Schloss OTU

在最近的一篇论文中，Westcott和Schloss提出了基于马修斯相关系数（MCC）的OTU定义。但是，它们的定义在实践中存在问题。

二、OTU的内核

Goals for making OTUs as clusters of reads

在这里，我建议制作OTU的一些目标。

类物种群的操作定义(Operational definition of species-like groups):
Sneath-Sokal序列分类。这是制作16S OTU的历史动机。
将单个菌株内的变异合并为一个簇:
细菌染色体通常含有16S基因的多个拷贝（旁系同源物）。旁系同源物通常具有较小的序列差异。聚类倾向于将旁系同源物合并为单个OTU。如果目标是每个表型获得一个OTU，这是一件好事，这对大多数分析来说都是有意义的。
将单个物种的菌株之间的变异合并为一个簇
给定物种的不同菌株，例如大肠杆菌，在它们的16S序列中通常具有差异。由于旁系同源物，在单一菌株内可能发生的变异之上，这增加了物种内的变异水平。聚类倾向于合并两种变化水平以为物种创建单个OTU或至少更少的OTU。如果目标是每个表型获得一个OTU，这不是一件好事，因为不同的菌株可能在表型上具有重要差异（例如，致病性或非致病性）。此外，虽然菌株的概念相当明确（竞争基因组中的变异很小），但物种的概念对细菌来说是个问题（Gevers等，2005，Doolittle和Pakpke，2006），因此有一个每个物种的OTU没有那么明确或有用。
将由于实验错误引起的变化合并到一个集群中
由于PCR测序错误引起的错误导致读数中的序列变异，其原因不是生物学的。聚类倾向于将坏序列与正确的生物序列合并。为了有效，这要求具有> 3％误差的序列是罕见的，因为它们总是诱导假的OTU（参见例如Edgar和Flyvbjerg 2014）。具有<3％误差的序列也可能导致虚假的OTU，这取决于相应的正确序列是否接近群集的中心（可能不是）或接近边缘（更可能）。

解释使用OTU获得的结果

要用OTU做有意义的生物学，你需要知道目标是什么（我上面建议的那些？其他？），以及这些目标在实践中的表现如何。这可能会有问题，因为作者通常对他们的目标含糊不清，并且在验证他们的方法时也很邋。例如，文献中发现的一种方法是在具有已知组成的人工（“模拟”）社区上测试该方法，并根据报告的OTU的数量来测量α多样性/丰富度。如果OTU的数量与物种的数量大致相同，则声明该方法是准确的。其中一些论文存在严重缺陷。可以在用于测试的模拟社区数据上调整算法参数，这可能导致过度拟合。可以出于错误的原因获得正确数量的OTU;例如，因为一些OTU有几个物种集中在同一个集群中，而另一些则是虚假的，例如嵌合体。在其他情况下，作者尝试使用模拟社区多样性进行验证，发现生成了太多的OTU，然后忽略，淡化或混淆结果，而不调查虚假OTU的来源。如果不理解和解释误差来源，那么生物学推论是不可靠的，并且对统计学显着性的幼稚估计可能会产生误导，因为可以获得错误假设的低P值（Taylor 1997）。

三、我的定义

我对OTU的定义

在USEARCH中，我的算法旨在报告正确生物序列的OTU。根据这个定义，与生物学的联系是明确的，OTU可以被客观地验证或伪造，特别是在已知生物序列的模拟社区测试中。

UPARSE OTU:

在UPARSE-OTU算法（cluster_otus命令）的情况下，目标是报告正确生物序列的子集，使得（a）所有OTU对彼此<97％相同，以及（b）OTU序列是其附近最丰富的。这些可以解释为Sneath-Sokal OTU，提供物种的可操作近似。

去噪OTU（ZOTU）:

使用UNOISE算法（unoise3命令），目标是报告读数中所有正确的生物序列。这些被称为零半径(zero-radius)OTU或ZOTU。由于种内变异（旁系同源物之间的差异和菌株之间的差异），预计一些物种可能在几个ZOTU上分裂。 ZOTU的优势在于它们能够解决具有潜在不同表型的密切相关菌株，这些表型将被97％的OTU集中到同一簇中。

OTU丰富:

根据我的定义，OTU是序列，而不是簇。传统的OTU分析通常基于OTU表，该表需要每个样本中每个OTU的丰度或频率。我通过计算reads来计算丰度，同时强调读数丰度与物种丰度的相关性非常低，因此对这些丰度的生物学解释尚不清楚。
对于去噪序列，ZOTU的丰度旨在是从该（一个，独特的）生物模板序列衍生的读数的数量，计算正确的reads和reads错误。
使用97％的OTU（UPARSE），OTU的丰度旨在是从与OTU序列> = 97％相同的所有生物序列衍生的读数的数量，计算正确的reads和reads错误。这个定义还不够，因为reads可以匹配两个或更多OTU。如果存在多个选择，则将reads分配给具有最高identity（不是最高丰度）的OTU，因为具有最高同一性的OTU更可能属于同一物种。如果选择仍然不明确，因为两个或更多OTU被绑定以获得最高identity，则通过选择数据库文件顺序中的第一个OTU来系统地破坏联系。此过程可确保将给定菌株的reads始终分配给同一个OTU。
实际上，对于OTU和ZOTU，通过使用otutab命令将reads与97％ identity阈值的reads对齐来计算丰度。reads被分配给最相似的OTU序列，系统地打破了联系。在97％OTU的情况下，使用97％ identity阈值的动机是不言自明的。使用ZOTU，动机是由于测序和PCR而允许高达3％的错误。预计ZOTU已经包含真正的生物学变异，并且最相似的ZOTU几乎总是具有错误reads的正确生物序列。

参考资料

https://drive5.com/usearch/manual/otus.html

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn