【3.2】 一级核酸数据库-Ensembl(EMBI)
在查看人的整个基因组之前,需要先搞清楚几件事:
- 人的基因组有 33 亿个碱基分布在 23 个染色体上
- 我们现在已经获得了人的全基因组序列
- 起初拿到手的就是 33 亿个字母, 下一步面临的巨大挑战就是给它们添加注释,也就是做一个详细的 FEATURES 表。
- 全世界 每时每刻关于人类基因及其功能都有新的发现。
- 研究基因的方法五花八门,层出不穷,不可能全部学会,只能是用到哪学到哪!
一、简介
Ensembl是由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园(Wellcome Trust Genome Campus)内。
Ensembl计划开始于1999年,人类基因组草图计划完成前的几年。即使在早期阶段,也可明显看出,三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释,并把这些注释与其他有用的生物数据整合起来,通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000,是一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。近年来,随着时间推移,越来越多的基因组数据已经被添加到了Ensembl,同时Ensembl可用数据的范围也扩展到了比较基因组学、变异,以及调控数据。
目前Ensembl的组员有40到50个人,分成几个小组:
-
Genebuild小组负责不同物种的gene sets创建。他们的结果被保存在核心数据库中,该数据库由Software小组进行运维。Software小组还负责BioMart数据挖掘工具的开发和维护。
-
Compara、Variation以及Regulation小组分别负责比较组学、突变以及调控的数据相关工作。
-
Web小组的工作是确保所有的数据能够在网站页面上,通过清晰和友好用户界面呈现出来。
-
Production小组负责Ensembl数据的常规更行。
-
最后,Outreach小组负责用户的答疑,以及提供全球范围内使用Ensembl的研讨会议或知识培训。
截止到2017年7月,Ensembl发发布了最新的Ensembl 90版本数据
包含的基因组的物种:http://asia.ensembl.org/info/about/species.html
基因注释的数据来源
- 最新的基因组数据(大部分是动物)
- UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
- NCBI RefSeq蛋白和核酸序列
- EMBL cDNA序列
Ensembl基因组数据库项目是欧洲生物信息研究所和Wellcome Trust Sanger研究所之间的一个联合科学项目,该项目于1999年启动,以应对即将完成的人类基因组计划。Ensembl旨在为遗传学家,分子生物学家和其他研究我们自己的物种和其他脊椎动物和模式生物的基因组的研究人员提供集中资源。Ensembl是用于检索基因组注释信息的几种众所周知的基因组浏览器之一。
同时,需要注意的是,Ensembl中的基因组注释由两部分组成:计算机自动注释(例如全基因组的转录本注释)以及人工注释。人工注释主要针对选定的物种(如:人类,小鼠,斑马鱼等等)。人工注释由Havana(Human and Vertebrate Analysis and Annotation)小组来完成。(我们在gtf注释文件中看到的HAVANA指的就是他们!HAVANA小组最开始是在Sanger研究所,2017年的时候迁往EBI了)
Ensembl与ENCODE以及GENCODE计划之间的关系:
Ensembl是ENCODE计划的子项目。而GENCODE计划(由Sanger研究所维护)则是ENCODE项目的衍生品,它的目标是为ENCODE项目提供可用的人类基因组和小鼠基因组注释。Ensembl在ENCODE计划中的作用是,为人类基因组的组装提供计算机的自动注释信息,并且把这些自动注释的信息和来自HAVANA的人工注释信息进行合并。GENCODE中的人类和小鼠的基因组注释和Ensembl数据库是同步发行的。
二、Ensembl可以做什么
- 查看基因在染色体上的注释
- 查看基因的选择性转录
- 探索某个基因的超过50个物种的同源性和进化树
- 比较物种的全基因组的比对和保守区域
- 查看比对到Ensembl上的芯片序列
- 查看染色体任何一区域的ESTs, clones, mRNA和proteins
- 检查染色体或基因上的SNPs (single nucleotide polymorphisms)
- 查看不同品种(rat,mouse),种群,品种(狗)的SNPs
- 查看比对到Ensembl基因上的mRNA或蛋白的序列位置
- 上传自己的数据
- 通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
- 通过BioMart导出序列和基因信息
- Variant Effect Predictor
三、下载
Ensembl的数据大概2-3个月会更新一次,每次发布不同的版本的时候或者有什么计划安排,Ensembl都会在他们的博客或者Face-book,Twitter上发布消息(墙内的同学可以访问博客)。每次数据更新的范围涵盖新物种、新的基因集注释、新的变异数据等等。 到目前为止Ensembl的数据版本已经发布到94版了(2018年10月)
如果想了解详细的版本信息和不同版本的数据可以访问(http://asia.ensembl.org/info/website/archives/index.html 和 ftp://ftp.ensembl.org/pub/)
3.1 少量的数据
大多数Ensembl 基因组数据的描述页有"export"功能,可以直接导出这一页的内容。
3.2 大的数据集
PERL API http://www.ensembl.org/info/docs/api/index.html
如果不熟悉Perl语言,可以通过Ensembl REST API http://rest.ensembl.org/
3.3 复杂的交叉数据库
BioMart http://www.ensembl.org/info/data/biomart/index.html
3.4 全部的数据集
FTP site http://www.ensembl.org/info/data/ftp/index.html
四、案例
我们从 Ensembl 数据库( http://www.ensembl.org )查看人的基因组。Ensembl 是由欧洲 生物信息学研究所 EBI 和英国桑格研究院合作开发的。它收入了各种动物的基因组,特别 是那些离我们人类近的脊椎动物的基因组。这些基因组的注释都是通过配套开发的软件自动 添加的。Ensembl 主页左下角有人,老鼠,斑马鱼这三个点击率最高的基因组的快速链接。 其中,人的基因组有两个。右边是 2009 年获得的基因组信息,左边是 2013 年重新测序获得 的基因组信息。我们看右边这个最新的。
点击进入之后,我们点这个查看染色体,就可以看到人的所有染色体的图例。不知到大 家还记不记得,之前看到的某些信息似乎和 15 号染色体有点儿什么关系!没错,前面一直 研究的那个编码 dUPTase 的 dut 基因就在 15 号染色体上。点一下 15 号染色体,在弹出窗口 中选择染色体概要(chromosome summary)。这时我们会得到 15 号染色体的一个一览图。里 面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及 GC 百分比(红线),和卫星 DNA 百分比(黑线)。染色体统计表给出了 15 号染色体的长度, 以及各种类型的基因的个数。
从 Genbank 我们了解到,dut 基因的第三号外显子位于 15 号染色体的长臂条带 21.1 附 近。所以我们进一步进入这个条带看一下。点击条带 21.1,选择区间链接。这时,这个区间 内所有的基因就都被显示在一张图上。如果眼力好的话,可以从这个图谱上直接找到 dut 基 因,并以他为中心放大。如果找不到,也可以通过搜索条输入基因的名字进行查找。
在以 dut 基因为中心显示的放大图谱中,点击 dut 或者对应的区域,在弹出的概况窗口 中选择 Ensemble 数据库的检索号。之后就会出现 dut 基因在 Ensemble 数据库中的详细记录。
Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目,它侧重于脊椎动物的基因组数据,但也包含了其他生物如线虫,酵母,拟南芥和水稻等,其中,BioMart是用户提取Ensembl基因组数据的强大工具。
Ensembl项目得到的数据均可以通过其基因组浏览器查看,用于支持脊椎动物基因组的比较基因组,进化,序列突变和转录调控方面研究。Ensembl注释基因,多重序列比对,预测结构和收集疾病数据。Ensembl工具包括:BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。
五、其他
5.1 Ensembl genes命名
我们在Ensembl中进行检索主要使用的是Ensembl Stable ID(也就是常说的Ensembl ID),例如:ENSG00000141510 。Ensembl ID也是有自己的命名规则的
Ensembl Stable ID的定义,格式,版本
Ensembl Stable ID是来源于Ensembl数据库的编号系统。它的命名由三部分组成:[species prefix][feature type prefix][a unique eleven digit number]. (根据不同物种设置的前缀+数据所指类型【例如,蛋白质,基因】+一段特定的数字),所以一个小鼠的基因在Ensmebl中的编号命名就应该是:ENSMUSG########### 。有时可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号(例如:ENSG00000223972.5)。Ensembl Stable ID版本号的更替是遵循一定规则的,具体可看:https://asia.ensembl.org/info/genome/stable_ids/index.html 和 https://asia.ensembl.org/info/genome/compara/stable_ids.html
常用的物种前缀:
前缀 | 物种学名 |
---|---|
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSMZE | Maylandia zebra (Zebra mbuna) |
MGP_LPJ_ | Mus musculus (Mouse LP/J) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
其它 | … |
类型前缀
前缀 | 类型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T |
人的基因
ENSG Gene
ENST Transcript
ENSE Exon
ENSP Protein
例如: ENST00000252723
其他物种的基因,例如老鼠(Mus musculus)
ENSMUSG Mouse Gene
ENSMUST Mouse Transcript
ENSMUSE Mouse Exon
ENSMUSP Mouse Protein
Ensembl Stable ID 名副其实的“Stable”,一旦被分配之后,是尽可能的保持稳定不更改的。但是也有不稳定的情况存在:
一般情况下,如果某个基因数据发生一些小的改动,(例如某个基因对应的转录本信息发生变化),Ensembl Stable ID是不会变动的。但是Stable ID后面的Version会变化,就是在Ensembl ID 后面加上小数点和版本号。比如说:ENSG00000223972.5 。 不一般的情况下,例如基因组组装序列的一些改变较大,或者基因组注释的更新影响了某个基因的整体模式。这时,我们的Ensembl才会分配新的Ensembl Stable ID啦! 目前蛋白质家族的ID(fam),Ensembl EST基因的ID(ENSESTG)和 Genscan的ID (GENSCAN) 都是不稳定的。所以如果有小伙伴用了这些数据的Ensembl ID要注意保持这些ID的实时更新喔!
ID历史版本转换:
Ensembl非常贴心的为我们提供了ID History Converter工具帮助使用者进行ID的新旧版本转换。有些数据的record里面,会有ID History一栏,帮助我们查看ID目前的版本和历史版本。例如:ENSG00000139618 的记录里就有
好啦,关于Ensembl和Ensembl ID的介绍就到这里,了解完Ensembl之后,我们接着向下看,发现有一个RefSeq status REVIEWED
RefSeq status用于指明这个基因记录所对应的状态,REVIEWED说明它已经被专家审核。
5.2 ensembl id 与gene symbol的不对应
tcga提供的那张ensembl id与gene symbol对应的表格中,有的gene symbol不能在 https://www.genenames.org/ 搜到HGNC symbol么? 。我知道原因了,是基因组版本的问题 。tcga提供的h37版本的对应表 。 后来enseml的版本都是基于hg38基因组了,所以会看到一些冲突
5.3 常见问题
http://www.ensembl.org/Help/Faq
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn