【3.7.1】一级核酸数据库-ENCODE

一、简介

人类基因组计划的主要目标是产生人类和主要模式生物(包括大肠杆菌(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)及小鼠(Mus musculus))的精确基因组序列。研究人员可以免费获取这项研究产生的数据公布,这又促进了人类基因组变异图谱的产生和发展(International HapMap Project)。然而,人们仍然不了解基因组如何编码产生多细胞有机体。这就需要精确阐明基因组上重要功能元件并且描绘出这些原件随着细胞种类及时间变化的动态变化情况。这些原件包括编码蛋白、非编码RNA、重要功能原件(如直接调控基因表达,DNA复制和染色体变异)的调控序列。大肠杆菌拥有较小规模基因组,因此首先被破译。对较为复杂的人、小鼠、果蝇及线虫基因组的破译工作仍然处在起始阶段。因此,美国国立人类基因组研究中心(National Human Genome Research Institute (NHGRI))于2003年启动了ENCODE (Encyclopedia of DNA Elements)计划,该计划的最终目标是描绘出人类基因组的功能元件。在此基础上,对此项计划的扩展,内容包括将对人类基因组破译工作扩展到整个基因组,另外于2007年发起了对模式动物线虫和果蝇基因组破译工作–ENCODE (modENCODE)。

该项目吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名研究人员的参与,经过了9年的努力,研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异。证明所谓“垃圾DNA”都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。

目前所有数据均全部公开(http://genome.ucsc.edu/ENCODE/ ),并以30篇论文在Nature、Science、Cell、JBC、Genome Biol、Genome Research同时发表(http://www.nature.com/encode )。成为一个互动的百科全书,并可以免费公开获得和利用这些全部的资料和数据。这是迄今最详细的人类基因组分析数据,是对人类生命科学的又一重大贡献。

    knitr::include_graphics("image/C3/encode.png")

更多信息见:

ENCODE主页 https://www.encodeproject.org/

modENCODE计划主页 http://www.modencode.org/

nature相关主题资源 http://www.nature.com/nature/focus/encode/index.html

ENCODE and modENCODE Data Listings http://www.ncbi.nlm.nih.gov/projects/geo/info/ENCODE.html

modENCODE 计划相关发表文献 http://blog.modencode.org/category/publications

NIH提供的ENCODE计划相关教程:

二、常见问题

2.1 6种方式下载ENCODE计划的所有数据

http://www.bio-info-trainee.com/1825.html

所有数据从raw data形式的原始测序数据到比对后的信号文件以及分析好的有意的peaks文件都可以下载。

2.2 ENCODE计划中enhance和promoter的确定

http://www.biotrainee.com/thread-298-1-1.html

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn