【5.1】一级蛋白质序列数据库-UniProt

蛋白质数据库的种类比核 酸数据库要多,但它的注释要比核酸数据库直白得多。像核酸数据库一样,蛋白质数据库也 分为一级和二级。一级蛋白质数据库又分为蛋白质序列数据库和蛋白质结构数据库。这两种 数据库里存放的都是通过实验方法直接获得的基础数据。而二级蛋白质数据库都是在一级数 据库的基础上分析加工出来的。

一、UniProt介绍

我们首先来看一级蛋白质序列数据库。一级蛋白质序列数据 库包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和 PIR,这三个数据库共同构成 UniProt 数据库。

  • Swiss-Prot 是一个人工注释的蛋白质序列数据库。它拥有注释可信度高,冗余度小的优 点。它是由欧洲生物信息学研究所 EBI 与瑞士生物信息学研究所 SIB 共同管理的。
  • TrEMBL 也是 EBI 和 SIB 共同管理的一个数据库,他与 Swiss-Prot 的区别是:TrEMBL 里的蛋白质序 列注释是由计算机完成的,它包含了 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的 所有翻译产物。换言之,TrEMBL 是通过计算机,把核酸序列数据库里能编码蛋白的核酸序 列都翻译成了蛋白质序列,然后把这些计算机翻译出来的蛋白质序列存入其中。可想而知, 这样的数据库一定是可信度低而冗余度大的。好在 TrEMBL 把已经包含在 Swiss-Prot 数据库 中的序列剔除掉了。也就是在 Swiss-Prot 里已经有人工注释的蛋白质序列在 TrEMBL 里就不 再出现了。
  • PIR 数据库是蛋白质信息资源数据库,他设在美国 Georgetown 大学医学中心。 是一个支持基因组学,蛋白质组学和系统生物学研究的综合公共生物信息学资源。

2002 年,Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质 数据库协作组,管理联合蛋白质序列数据库,也就是 UniProt 数据库。UniProt 数据库有三个 层次:

  • 第一层叫 UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。
  • 第二层是 UniRef,他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。
  • 第三层是 UniProtKB,他有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot 和 UniProtKB 下的 TrEMBL 数据库。关系稍有点复杂,但实际上我们最常用的就是 UniProtKB 下的 Swiss-Prot 数据库。

二、UniProtKB 注释解读

这一节我们从 UniProt 数据库查看一条蛋白质序列(http://www.uniprot.org/)。在 UniProt 数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到,TrEMBL 数据库里存储 的序列数量远远大于 Swiss-Prot 中的。统计表里清楚的写着:TrEMBL 是自动注释的,没有 经过检查,而 Swiss-Prot 是人工注释的,并且经过检查。这是 Swiss-Prot 和 TrEMBL 最大的 区别,一定要记住。跟 NCBI 的网站一样,UniProt 数据库的首页上也有一个搜索条,选择 U n i p r o t K B 数 据 库 , 然 后 输 入 “ h u m a n d u t p a s e ”。 上 节 课 我 们 一 直 在 研 究 d U T P a s e , 从 P u b M e d 查文献到 GenBank 查看编码这一蛋白的 dut 基因。这节课我们继续研究它。这次我们直接查 看 dUTPase 的蛋白质序列。

通过关键词搜索我们找到了很多条蛋白质序列。从蛋白质的名字来看,第一条应该是我 们想要的。Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号,Entry_Name 是 检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识,两者作用相同, 只是写法不同。从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标 我 们可以获知序列是被人工检查过的还是没有。也就是说,有加星文档图标的是 Swiss-Prot 中 的数据,没有的是 TrEMBL 里的。后面这几列,依次是蛋白质的名字,编码这一蛋白质的 基因的名字,所属物种以及序列长度。点击第一条序列的检索号,打开这条数据库记录。

UniProtKB 中的数据库记录分成几个部分,左侧是注释标签,点击其中某一个标签可以 直接跳转到该部分注释。上方是工具标签,可以用于和其他序列进行比较,格式转换,存储 等。工具标签下方是这条蛋白质序列的基本信息,蛋白质的名字,基因的名字,所属物种, 以及状态。这里有加星文档图标,是被人工检查过的,应该属于 Swiss-Prot 数据库。注释打 分 5 星,说明注释得很全面,并且这些注释在蛋白质水平上有实验依据。再往下就是具体的 注释内容了。

  • Function,功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知 dUTPase 是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代 谢途径等。每条注释信息都提供出处来源,让你有据可查。
  • Names & Taxomomy 给出了蛋白质的各种名字,包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。
  • Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。 成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能。蛋白质在细胞内不同组分中的定 位即为蛋白质的亚细胞定位。亚细胞定位对蛋白质的生理功能有着直接的影响。处于合适的 亚细胞定位的蛋白质才能行使其正常的功能。目前,研究亚细胞定位的数据来源基本都是 Swiss-Prot 数据库。上节课我们从 GenBank 里查看人的 dut 基因时得知,dut 基因有两种剪切 方式,其中一种会保留前端的一段信号肽,这个信号肽会将蛋白质定位于线粒体。而没有这 段信号肽的留在了细胞核。这与 Swiss-Prot 中关于亚细胞定位的注释是一致的。我们看到, 这个蛋白有两种异构体(isofrom),一个亚细胞定位在细胞核,另一个在线粒体。
  • Pathology & Biotechnology:提供蛋白质突变或缺失导致的疾病及表型信息。比 如 99 位的丝氨酸会突变成丙氨酸从而导致磷酸化的缺失,相关具体研究可参考注释来源文 献。
  • PTM/Processing:提供蛋白质翻译后修饰或翻译后加工的相关信息。比如信号肽在 蛋白质到达指定位置之后要被剪切掉,有些氨基酸位点上会发生乙酰化、甲基化、磷酸化等 翻译后修饰。
  • Expression:提供了基因在 mRNA 水平上的表达信息,或者在细胞中蛋白质水平上 的表达信息,或者在不同器官组织中的表达信息。
  • Interaction:提供了蛋白质之间相互作用的信息。包括 UniProtKB 中直接与这个蛋 白质有两两相互作用的蛋白质序列的链接,以及这个蛋白质在各种蛋白质相互作用数据库或 蛋白质网络数据库中涉及的数据库记录链接。
  • Structure:提供蛋白质二级结构和三级结构信息。这里请注意,只有那些已通过实 验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。二级结 构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数 据库记录链接。这些结构经常只对应蛋白质的部分序列。
  • Family & Domains:提供蛋白质家族及结构域信息。这个蛋白质是属于 dUTPase 家 族的。它有三个重要的区域用于和其他分子结合。此外还有与系统发生学数据库以及结构域 数据库之间的链接。
  • Sequence:提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。 这个蛋白质有两个异构体,一个线粒体型的,一个细胞核型的。所以会显示两条序列。FASTA 按钮提供 FASTA 格式序列。
  • Cross-references:列出了所有通往其他含有该蛋白质信息的数据库的链接。
  • Publications:列出了有关这个蛋白质已发表的所有文献的信息。
  • Entry information:提供有关这条数据库记录的录入信息,外加一个免责声明。
  • Miscellaneous:杂项,包含任何无法归入前几项的内容。
  • Similar Proteins:在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋 白质,并按相似度高低分组。如上节课所讲,凡是名字里有 ref 的数据库都是非冗余数据库, UniRef 亦是如此,它属于 UniProt 数据库的第二个层次。
  • 网页版的数据库记录也可以像 GenBank 一样保存成纯文本格式的本地文件。这种文本 格式的数据库记录每一行都有一个两个字母组成的条目索引,用以说明这一行记录的是什么 内容。条目索引所代表的具体内容可以参见下表。

表 1. UniProtKB 纯文本(Flat File)格式数据库记录条目索引含义表

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学