【3.1】 一级核酸数据库-GenBank(NCBI)

这一节我们来看一级核酸数据库,他主要包括三大核酸数据库和基因组数据库。三大核酸数据库包括 NCBI 的 Genbank,EMBL 的 ENA 和 DDBJ,它们共同构成国际核酸序列数据库。三大核酸数据库,美国一个,欧洲一个,亚洲一个。

  • 美国的 Genbank 由美国国家生物 技术信息中心 NCBI 开发并负责维护的一级核酸序列数据库。NCBI 隶属于美国国立卫生研究院 NIH。
  • 欧洲核苷酸 序列数据集 ENA 由欧洲分子生物学研究室 EMBL 开发并负责维护。
  • 亚洲的核酸数据库 DDBJ 由位于日本静冈的日本国立遗传学研究所 NIG 开发并负责维护。

Genbank,EMBL 与 DDBJ 共同构成国际核酸序列数据库合作联盟 INSDC。通过 INSDC,三大核酸数据库的信息每日 相互交换,更新汇总。这使得他们几乎在任何时候都享有相同的数据。

一、简介

1.1 数据概况

GenBank的数据来源渠道主要有三种:

  1. 科研工作者提交的序列数据
  2. 与其他数据机构协作交换的数据
  3. 其他从测序中心获得的高通量数据。再来看一组数字

GenBank的数据来源于260,000多个物种;GenBank中约有13%的序列来自于人类;数据量排名第一的物种是Homo sapiens(人类),其次是小鼠

目前GenBank的数据已经发布到第227版本(截至2018年8月)

1.2 检索

GenBank中既然有这么多数据,如果我们想在GenBank中进行序列检索,应该怎么做呢?

可以有两种方式在GenBank中进行检索:

  1. 泛式检索:例如直接输入感兴趣序列所在基因的名称或者提交作者的姓名等
  2. 特殊标识符检索:即GI号和Genbank的Accession number。

第一种检索方式非常简单,这里就不再赘述。需要我们谈谈的是,第二种检索方式中的GI号和Accession number(注册号/登陆号)是什么含义

GI number: GI号(GenInfo Identifier,有时用小写字母“gi”表示)是核苷酸序列的序列标识号,由一系列简单的数字组成。它们被连续分配给NCBI处理的每个序列记录,如果一个序列以任何方式改变,那么一个新的GI号将被分配。需要注意的是,GI号和序列的Accession number没有什么关联。

GenBank-Accession Number:Accession Number又叫做注册号/登录号,像GI号一样,它也是唯一的序列标识符。但是与GI号不同的是,AC号一旦分配就不会改变了。一个AC号通常是字母和数字的组合,例如一个字母后跟5位数(如U12345)或两个字母后跟6位数(如AF123456)。

好啦,所以GI号和Accession number都是GenBank数据库中对某条序列进行标识的标识符。这里呢,还需要注意两个概念,那就是GI号和Accession Number.Version.我们的GI号和Accession Number.Version都是可以用来追踪一条序列的演化的。那么这两种标识符之间又有什么关系呢

GI号和Accession Number.Version NCBI的GI号和Accesion Number.Version是两种不同系统的标识符,它们是平行使用的。当序列的数据改变或升级时,将会分配一个新的GI number。Accession number主体编号不会改变,但是它所对应的版本(Accession number.Version)会随着增加。如NM_008261.1–>NM_008261.2(GI number:6680238–>46575915)。

此外,关于GI号的使用,还有一段不得不说的历史。。。来看看吧:

1.3 历史

GI(GenInfo Identifier)号是NCBI很早就用来作为序列标识符的编号系统。但是国际核酸序列数据库联盟(GenBank、EMBL和DDBJ)刚成立时并没有统一的使用GI号,而是使用它们各自数据库内部的编号来追踪序列。后来,国际核酸序列数据库联盟(GenBank、EMBL和DDBJ)决定统一使用一个编号来唯一标识序列,于是它们创造了NID(核酸序列标识号)和PID(蛋白质序列标识号)。直到1999年12月,NID和PID的叫法才中断使用,对序列的唯一标识符又恢复成我们现在所熟知的GI号。 同时,1992年的时候国际核苷酸序列数据库联盟(GenBank、EMBL和DDBJ)开始启用Accession Number.Version系统,确保了国际的通用性,并且对序列的标识性与追踪性更加地方便,Accession Number.Version与GI number平行运行。 想了解更多详细的GI历史以及GI和Accession number.version的区别可见:https://www.ncbi.nlm.nih.gov/genbank/sequenceids/

二、数据库包含的信息详解

2.1 原核生物核酸序列

原核生物基因组小,真核生物基因组大。原核生物基因密度高,1000 个碱基里就有 1 个基因,而真核生物基因密度低,比如人,要 10 万个碱基才有 1 个基因。与此对应, 原核生物编码区含量高,而真核生物低。此外,原核生物的基因是呈线性分布的,而真核生 物的基因是非线性的,因为翻译蛋白质的外显子被内含子分隔开来。也就是真核生物的 mRNA 要经历剪切的过程,剪切后的成熟 mRNA 才能进行翻译。这是原核生物和真核生物 基因的最大区别,即,原核生物没有内含子,真核生物有内含子。这个巨大的区别,将导致 两种基因在数据库中不同的存储及注释方式。

我们首先来看一条原核生物的 DNA 序列,它是编码大肠杆菌 dUTPase 的基因,在 Genbank 里的数据库编号是 X01714。从 NCBI 的主页( http://www.ncbi.nlm.nih.gov/ )选择 Genbank 数据库。Nucleotide 数据库就是 Genbank 数据库,然后在搜索条中直接写入这条序 列对应的数据库编号 X01714,点击“搜索”。结果返回编号为 X01714 的序列在 Genbank 中 详细记录。从这条记录的标题我们得知,dUTPase 是脱氧尿苷焦磷酸酶,编码他的基因叫 dut 基因,所属物种是大肠杆菌。下面是关于这个基因的详细注释,我们逐条浏览一下:

(图仅截图了一部分,具体信息见 https://www.ncbi.nlm.nih.gov/nuccore/X01714 )

(LOCUS,DEFINITION,ACCESSION 容易理解错)

  • LOCUS 这一行里包括基因座的名字,核酸序列长度,分子的类别,拓扑类型,原核生 物的基因拓扑类型都是线性的,最后是更新日期。
  • DEFINITION 是这条序列的简短定义,也就是前面看到的标题。
  • ACCESSION 就是在搜索条中输入的那个数据库编号,也叫做检索号,每条记录的检索 号在数据库中是唯一且不变的。即使数据提交者改变了数据内容,Accession 也不会变。 你会发现,这条记录里,Accession 和 Locus 是一样的。这是因为这个基因在录入数据 库之前并没有起名字,因此录入数据的时候便将检索号作为了基因的名字。但是有些基因, 在录入数据库之前已经有了自己的名字,那么这些基因所对应的 Accession 和 Locus 就 不一样了。你可以这样理解,Locus 是一个同学的真实姓名,而 Accession 是这个同学 的学号。同一个人在不同的学校里会有不同的学号,而名字只有一个。基因也是一样,同一 个基因在不同的数据库中会有不同的检索号,而基因的名字只有一个。
  • Version 版本号和 Locus,Accession 长得差不多。版本号的格式是“检索号点上 一个数字”。版本号于 1999 年 2 月由三大数据库采纳使用。主要用于识别数据库中一条单一 的特定核苷酸序列。在数据库中,如果某条序列发生了改变,即使是单碱基的改变,它的版 本号都将增加,而它的 Accession 也就是检索号保持不变。比如,版本号由 U12345.1 变 为 U12345.2,而检索号依然是 U12345。版本号后面还有个 GI 号。GI 号与前面的版本号系 统是平行运行的。当一条序列改变后,它将被赋予一个新的 GI 号,同时它的版本号将增加。
  • KEYWORDS 提供能够大致描述该条目的几个关键词,可用于数据库搜索。
  • SOURCE,基因序列所属物种的俗名。他下面还有一个子条目,ORGANISM,是对所属 物种更详细的定义,包括他的科学分类。
  • REFERENCE 是基因序列来源的科学文献。有时一条基因序列的不同片段可能来源于不 同的文献,那样的话,就会有很多个 REFERENCE 条目出现。REFERENCE 的子条目包括文 献的作者、题目和刊物。刊物下面还包括 PubMed ID 作为其子条目。
  • COMMENT 是自由撰写的内容,比如致谢,或者是无法归入前面几项的内容。 FEATURES 是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含很多子条目,比如来源,启动子,核糖体结合位点等等。
  • source 说明了核酸序列的来源,据此可以容易的分辨出这条序列是来源于克隆载体还 是基因组。可以看到,当前序列来源于大肠杆菌的基因组 DNA。
  • promoter 列出了启动子的位置。细菌有两个启动子区,-35 区和-10 区。-35 区位于第 286 个碱基到第 291 个碱基 ,-10 区位于第 310 个碱基到第 316 个碱基。
  • misc_feature 列出了一些杂项,比如,这条说明了从第 322 个碱基到第 324 个碱基 是一个推测的,但无实验证实的转录起始位置。
  • RBS 是核糖体结合位点的位置。
  • CDS,Coding Segment,编码区。对于原核生物来讲,CDS 记录了一个开放阅读框,从 第 343 个碱基开始的起始密码子 ATG 到第 798 个碱基结束的结束密码子 TAA。除了位置信 息,还包括翻译产物的诸多信息。翻译产物蛋白的名字是 dUTPase,这个编码区编码该蛋白 的第 1 到第 151 个氨基酸。翻译的起始位置和翻译所使用的密码本,以及计算机使用翻译密 码本根据核酸序列翻译出的蛋白质序列。需要强调的是,这不是生物自然翻译的,而是计算 机翻译的。事实上,蛋白质数据库中的大多数蛋白质序列都是根据核酸序列由计算机根据翻译密码本自动翻译出来的。中间部分是翻译出的蛋白在各种蛋白质数据库中对应的检索号。 通过这些检索号可以轻松的链接到其他数据库。此外,X01714 这条核酸序列还包含第二个“潜在的”基因,也就是计算机预测出来的 基因。它编码的蛋白目前的数据库里没有详细记录,是个未知的蛋白。像这样,一条核酸序 列包含多个基因的情况在 Genbank 里是很常见的。
  • ORIGIN 作为最后一个条目记录的是核酸序列,并以双斜线作为整条记录的结束符。至 此整条记录就浏览完了。 有时你可能会想要保存这条序列,但是直接从这里拷贝,序列里既有空格,又有数字, 不是纯序列,手动删除这些又很麻烦。这时,你可以在这条记录的标题下面找到一个叫做 FASTA 的链接。点击他,你会获得 FASTA 格式的核酸序列。FASTA 格式是最常用的序列书 写格式,他由两部分组成,第一部分就是第一行,以大于号开始。大于号后面接序列的名称 或注释。第二部分就是第二行以后的纯序列部分,这部分只能写序列,不能有其他内容,比 如空格,注释,行号之类的都不能在序列部分出现。早期的 FASTA 格式要求序列部分每行 60 个字母。但这个规定早已被打破,每行 80,或每行 100,都可以。
  • 标题下方,除了 FASTA 链接,还有一个图形化链接,点击可以看到 Features 里的注 释信息以图形的形式更直观的展示出来。可以看到这条序列包含的两个基因,他们的启动子 的位置,核糖体结合位点的位置等。其中一条基因是编码 dUTPase 的 dut 基因,另一个是编 码未知蛋白的潜在的通过计算预测出的基因。
  • 如果想要保存这条记录,最好的方法是像保存 PubMed 文献列表那样,点击发送链接, 然后选择以纯文本文件的形式保存整条记录到本地电脑上。

2.2 真核数据库

我们浏览真核生物的核酸序列。真核生物的基因与原核生物不同,是非线性排列的,也 就是基因里有外显子和内含子。因此真核生物核酸序列的数据库记录要要比原核生物复杂。

有时需要几条记录拼凑在一起才能描述出一个完整的基因。我们先来看看编码人 dUTPase 的成熟 mRNA 序列。成熟 mRNA 是已经剪切掉内含子,只剩外显子的序列,所以这条成熟 mRNA 序列和我们之前看到的原核生物的 DNA 序列从拓扑结构上看是几乎一样的,都是线 性的。输入这条成熟 mRNA 序列的检索号 U90223,搜索!

打开数据库记录,基本的注释内容和原核生物的差不多,这里只挑两点特别的地方说一 下。大家看到 KEYWORDS 后面只有一个点。这个点提示我们,数据库并不是完美的,所有 数据库都存在数据不完整的问题。再有,JOURNAL 后面我们看到是写的是未正式发表。但 事实上,这篇文章早在 1997 年就已经发表在 JBC 上了。因此,忠言逆耳:别指望 Genbank 或任何一个数据库能够百分百做到数据无误且实时更新。

Features 里的注释内容与原核生物的数据库记录相似,CDS 指出了从 63 到 821 是一 段编码区,在这段编码区里基因是连续的,因为是经过剪切后的成熟 mRNA,它将被翻译 成线粒体型 dUTPase 蛋白。下面/translation 里给出的是计算机翻译出的该蛋白的序列。

在Features 里还有两个新的条目之前没有见到过。sig_peptide和mat_peptide。 sig_peptide,也就是 signal peptide,指出了编码信号肽的碱基的位置。信号肽决定了蛋 白质的亚细胞定位,也就是蛋白质工作的地方。mat_peptide,也就是 mature peptide,指 出了编码成熟肽链的碱基的位置。他从信号肽后面开始,到编码区结尾提前三个碱基结束。 编码区一直到第 821 号碱基,而编码成熟蛋白的最后一个碱基是第 818 号碱基,这中间差了3 个碱基,那最后的这三个碱基干嘛去了呢?编码区的最后三个碱基是终止密码子,不翻译。 这条真核生物序列的 Genbank 注释看起来和原核生物的差不多,这是因为我们很小心的挑 了一条成熟 mRNA 的序列。

基因组里的 DNA 序列,是非线性分布的基因序列。我们仍然浏览编码人的 dUTPase 的 dut 基因序列。输入检索号 AF018430,搜索!

这个检索号下的序列标题是“人 dut 基因的第三号外显子”。人的 dut 基因肯定包含多 个外显子,而当前的这条 DNA 序列里只包含了一个外显子。其他的外显子在别的数据库记 录里。从 SEGMENT 处可以看到,人的 dut 基因序列被分成了 4 个片段,并且分别存储在 4 条数据库记录中。也就是说,只有把四个片段全部凑在一起,才能拼凑出完整的基因。当前 这条数据库记录是所有四个片段里的第二个。这个片段里只包含一个外显子,是第三号外显 子。需要注意的是,一个片段可以只包含一个外显子,也可以包含不止一个外显子。另外, 这个例子告诉我们,LOCUS 和 ACCESSION 是可以不相同的。

从 FEATURES 里可以找到这个序列片段在染色体上的具体位置。是在 15 号染色体的长 臂上,位置在 15 到 21.1 条带之间。

GENE 这部分指出了拼出完整基因所需的所有四个片段的检索号,以及具体的位置。也 就是 AF018429 这条序列的 1 到 1735 号碱基,连上当前这条序列的 1 到 1177 号碱基,连上 AF018431 这条序列的 1 到 45 号碱基,连上 AF018432 这条序列的 658 到 732 号碱基和 884 到 954 号碱基,以及 1391 到 1447 号碱基。后面给出了基因的名字,dut。

mRNA 给出了拼凑出上面基因的各个片段中外显子的位置。也就是说,GENE 里的片段 拼在一起是完整的基因,mRNA 里的片段拼在一起就等于完成了剪切的过程,相当于成熟 mRNA。值得注意的是,剪接后形成的 mRNA 有两种,其中一种比另一种在前端多了一个 外显子。多的这一段将被翻译成定位线粒体的信号肽,从而翻译出线粒体型的蛋白质。而另 一种没有信号肽的将形成细胞核型蛋白质。

上表清晰的列出了四个片段中所有外显子的位置。能够清楚的看到,线粒体型的比细胞 核型的多了一个翻译信号肽的外显子,其他的翻译成熟肽段的外显子都是一样的。虽然信号 肽最终也会被切掉,但是由此产生了两种亚细胞定位的蛋白质。有信号肽的会到线粒体中去, 没有的将留在细胞核里。

最后 exon 条目明确的告诉我们,当前这条序列里 560 到 651 号碱基是 dut 基因的第三 个外显子。至此,大家应该看得出来,解读真核生物的 DNA 序列要比原核生物复杂得多。 但是,只要你熟知基因的结构和 Genbank 的存储方式,这本天书不难看懂。

其他

完整的GenBank数据库包括序列文件索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为****FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。

每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn