【1.2】宏基因组学

宏基因组学是来研究宏基因组的学科,从环境样品中直接提取DNA来研究。这们学科也可以叫做环境基因组学,生态基因组学或群落基因组学。早期的微生物学和微生物基因测序和组学研究以来未培养的克隆文库,早期测序环境基因中克隆出的特殊基因(例如16srRNA)来给出环境样品中微生物多态性的一个概括。这个方法证明通过培养的方法大量的微生物的生物多样性被丢失【1】.现在通过鸟枪法Sanger sequencing或这高通量测序(massively parallel pyrosequencing)来获得环境样品中所有微生物的DNA序列【2】。因为宏基因组这个方法能够获得之前隐蔽的微生物的多态性,它显示了解读微生物世界的能力,同时有可能让我们更好的理解所有的生命个体【3】.

一、来源:

宏基因组学最先是于1998年Jo Handelsman, Jon Clardy, Robert M. Goodman科学家提出来的【4】.宏基因组源于这样的一个想法,环境中所有的基因被当作一个基因组来研究。最近,Kevin Chen and Lior Pachter这样来定义宏基因组学“the application of modern genomics techniques to the study of communities of microbial organisms directly in their natural environments, bypassing the need for isolation and lab cultivation of individual species”【5】.也就是说应用现代基因组技术来直接理解自然环境中微生物群落,绕过分离单菌和实验室培养的技术。

二、历史

之前测序是为了了解培养出来的微生物的DNA序列,然而,早期的宏基因组研究发现在很多环境中有大量的微生物是不能培养,因此也不能被测序。这些早期的研究集中在16SrRNA(一些相对比较短,但具有高度保守性的序列,在不同物种中不一样)。许多测序出来16SrRNA不属于任何已知的培养物种,因此推测有大量的为分离的物种。直接从环境样品中提取出rRNA分析发现通过培养的方法已知的细菌和古菌的物种不到环境样品微生物种类的1%【1】.因为这些发现显示了许多微生物物种是没有被注意到的,激发了许多人对宏基因组学的兴趣。

早期这一块的分子工作是由Norman R. Pace和他的同事开展的,通过用PCR来发现rRNA序列的多样性【6】.1985年的时候,之前的这个突破性的工作让Pace想到直接从环境样品中克隆出DNA【7】。从环境样品中分离出大量DNA然后克隆,他们于1991年第一个发表了这个思路的文章【8】。大量的工作证明这些不是PCR假阳性,从而证明了这个复杂环境样品中有未知的物种。尽管这个方法不能够发现大量保守的,非编码基因,但它证实了早期的微生物形态学的观察到的多样性远比我们培养的方法所知道的要复杂。不久,Healy于1995年报告了宏基因组的方法从环境样品中分离出功能基因【9】.Edward DeLong在离开Pace laboratory继续在这方面的研究,发表的工作为基于16S的序列环境系统发生打下了基石,同时带领他的团队开始海洋样品文库的构建【10】。 …… ……

三、测序

测序环境样品中长度超过几千个碱基的序列非常困难,直到分子生物学技术的发展可以在BACs(为分子克隆提供了载体)中构建文库【18】. 鸟枪法宏基因组学 生物信息学的发展,DNA扩增的优化,计算机计算能力的提升极大的帮助了分析从环境样品中获得的DNA序列的分析,允许鸟枪法在宏基因组样品中的应用。这个方法被用于测序许多培养的微生物物种和人类基因组,随意的剪切DNA,测序出许多短的片段,然后重组这些短的片段来获得一致性的序列。鸟枪法测序和screen克隆文库揭露了很多在环境样品中的基因。这个方法为我们提供了这个群落中都有什么物种以及可能的代谢途径的信息【19】。

鸟枪法宏基因组学也能够直接从环境中获得将近完整的微生物基因组【12】.因为从环境中获取DNA是很大程度上不可控制的,环境样品中最大的丰度的物种会在测序结果中体现出来。为了获得环境中低丰度的物种,测序出来的数据量就必须大。On the other hand, the random nature of shotgun sequencing ensures that many of these organisms, which would otherwise go unnoticed using traditional culturing techniques, will be represented by at least some small sequence segments[12]。

高通量测序

454 pyrosequencing,Ion Torrent Personal Genome Machine, the Illumina Genome Analyzer II and the Applied Biosystems SOLiD system。测序出来的序列短,但是数据量大。

四、生物信息学分析

宏基因组实验产生的数据量不仅很大而且有内在的噪音,含有的片段代表的物种可以达到10,000中【25】.对牛胃宏基因组测序得到279G的数据【26】,同时人的内脏微生物测出来的567G的数据组装后发现3,300,000个基因【27】。收集,组织,提取有用的生物信息从这么大的数据集中对科研人员来说是一个很大的计算挑战【19,28】。

1.序列过滤

宏基因组分析的第一步是要求过滤数据,包括去除冗余的数据,低质量的序列和序列中可能含有的真核生物的序列(特别是人的基因组)【29,30】. Eu-Detect and DeConseq可以用来出去真核生物基因组的污染【31,32】

2.组装

详见我组装方面的博文

因为二代测序的序列短,许多宏基因组数据更容易出错,通过这些reads组装的序列不是那么的可靠。错误的组装,比如说重复DNA序列,because of the difference in the relative abundance of species present in the sample【33】.同时错误的组装也容易造成不真实的contig而推出不存在的物种。

3.基因预测

详见我相关的博文

基于同源性的预测,从头预测

4.物种多样性

详见我聚类方面的博文

基因注释回答的是什么?物种多样性分析回答的是谁【36】。为了联系宏基因组中物种组成和功能,序列必须聚类。两种方式:基于之前的信息,从头聚类。 …… ……

参考资料:

维基百科http://en.wikipedia.org/wiki/Metagenomics(博文中的数字代表维基对应的文献)

Ps: 此刻才发现维基百科太强大了,如果以后要开展某个未知领域的研究,一定要好好看看一下维基百科额 分享:

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn