【3.2】 一级核酸数据库-Ensemble

在查看人的整个基因组之前,需要先搞清楚几件事:

  • 人的基因组有 33 亿个碱基分布在 23 个染色体上
  • 我们现在已经获得了人的全基因组序列
  • 起初拿到手的就是 33 亿个字母, 下一步面临的巨大挑战就是给它们添加注释,也就是做一个详细的 FEATURES 表。
  • 全世界 每时每刻关于人类基因及其功能都有新的发现。
  • 研究基因的方法五花八门,层出不穷,不可能全部学会,只能是用到哪学到哪!

一、简介

Ensembl是由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园(Wellcome Trust Genome Campus)内。

Ensembl计划开始于1999年,人类基因组草图计划完成前的几年。即使在早期阶段,也可明显看出,三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释,并把这些注释与其他有用的生物数据整合起来,通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000,是一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。近年来,随着时间推移,越来越多的基因组数据已经被添加到了Ensembl,同时Ensembl可用数据的范围也扩展到了比较基因组学、变异,以及调控数据。

目前Ensembl的组员有40到50个人,分成几个小组:

  1. Genebuild小组负责不同物种的gene sets创建。他们的结果被保存在核心数据库中,该数据库由Software小组进行运维。Software小组还负责BioMart数据挖掘工具的开发和维护。

  2. Compara、Variation以及Regulation小组分别负责比较组学、突变以及调控的数据相关工作。

  3. Web小组的工作是确保所有的数据能够在网站页面上,通过清晰和友好用户界面呈现出来。

  4. Production小组负责Ensembl数据的常规更行。

  5. 最后,Outreach小组负责用户的答疑,以及提供全球范围内使用Ensembl的研讨会议或知识培训。

截止到2017年7月,Ensembl发发布了最新的Ensembl 90版本数据

包含的基因组的物种:http://asia.ensembl.org/info/about/species.html

基因注释的数据来源

  1. 最新的基因组数据(大部分是动物)
  2. UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
  3. NCBI RefSeq蛋白和核酸序列
  4. EMBL cDNA序列

二、Ensembl可以做什么

  • 查看基因在染色体上的注释
  • 查看基因的选择性转录
  • 探索某个基因的超过50个物种的同源性和进化树
  • 比较物种的全基因组的比对和保守区域
  • 查看比对到Ensembl上的芯片序列
  • 查看染色体任何一区域的ESTs, clones, mRNA和proteins
  • 检查染色体或基因上的SNPs (single nucleotide polymorphisms)
  • 查看不同品种(rat,mouse),种群,品种(狗)的SNPs
  • 查看比对到Ensembl基因上的mRNA或蛋白的序列位置
  • 上传自己的数据
  • 通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
  • 通过BioMart导出序列和基因信息
  • Variant Effect Predictor

三、下载

3.1 少量的数据

大多数Ensembl 基因组数据的描述页有”export”功能,可以直接导出这一页的内容。

3.2 大的数据集

PERL API http://www.ensembl.org/info/docs/api/index.html

如果不熟悉Perl语言,可以通过Ensembl REST API http://rest.ensembl.org/

3.3 复杂的交叉数据库

BioMart http://www.ensembl.org/info/data/biomart/index.html

3.4 全部的数据集

FTP site http://www.ensembl.org/info/data/ftp/index.html

四、案例

我们从 Ensembl 数据库( http://www.ensembl.org )查看人的基因组。Ensembl 是由欧洲 生物信息学研究所 EBI 和英国桑格研究院合作开发的。它收入了各种动物的基因组,特别 是那些离我们人类近的脊椎动物的基因组。这些基因组的注释都是通过配套开发的软件自动 添加的。Ensembl 主页左下角有人,老鼠,斑马鱼这三个点击率最高的基因组的快速链接。 其中,人的基因组有两个。右边是 2009 年获得的基因组信息,左边是 2013 年重新测序获得 的基因组信息。我们看右边这个最新的。

点击进入之后,我们点这个查看染色体,就可以看到人的所有染色体的图例。不知到大 家还记不记得,之前看到的某些信息似乎和 15 号染色体有点儿什么关系!没错,前面一直 研究的那个编码 dUPTase 的 dut 基因就在 15 号染色体上。点一下 15 号染色体,在弹出窗口 中选择染色体概要(chromosome summary)。这时我们会得到 15 号染色体的一个一览图。里 面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及 GC 百分比(红线),和卫星 DNA 百分比(黑线)。染色体统计表给出了 15 号染色体的长度, 以及各种类型的基因的个数。

从 Genbank 我们了解到,dut 基因的第三号外显子位于 15 号染色体的长臂条带 21.1 附 近。所以我们进一步进入这个条带看一下。点击条带 21.1,选择区间链接。这时,这个区间 内所有的基因就都被显示在一张图上。如果眼力好的话,可以从这个图谱上直接找到 dut 基 因,并以他为中心放大。如果找不到,也可以通过搜索条输入基因的名字进行查找。

在以 dut 基因为中心显示的放大图谱中,点击 dut 或者对应的区域,在弹出的概况窗口 中选择 Ensemble 数据库的检索号。之后就会出现 dut 基因在 Ensemble 数据库中的详细记录。

Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目,它侧重于脊椎动物的基因组数据,但也包含了其他生物如线虫,酵母,拟南芥和水稻等,其中,BioMart是用户提取Ensembl基因组数据的强大工具。

Ensembl项目得到的数据均可以通过其基因组浏览器查看,用于支持脊椎动物基因组的比较基因组,进化,序列突变和转录调控方面研究。Ensembl注释基因,多重序列比对,预测结构和收集疾病数据。Ensembl工具包括:BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

五、其他

5.1 Ensembl genes命名

人的基因

	ENSG  Gene
	ENST  Transcript
	ENSE  Exon
	ENSP  Protein
	例如: ENST00000252723

其他物种的基因,例如老鼠(Mus musculus)

	ENSMUSG  Mouse Gene
	ENSMUST  Mouse Transcript
	ENSMUSE  Mouse Exon
	ENSMUSP  Mouse Protein

5.2 常见问题

http://www.ensembl.org/Help/Faq

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学