【5.1】一级蛋白质序列数据库-UniProt

January 16, 2018 biodatabase 阅读量：次

Uniprot（Universal Protein Resource）是目前国际上最广泛使用的蛋白质数据库（没有之一）。

蛋白质数据库的种类比核酸数据库要多，但它的注释要比核酸数据库直白得多。像核酸数据库一样，蛋白质数据库也分为一级和二级。一级蛋白质数据库又分为蛋白质序列数据库和蛋白质结构数据库。这两种数据库里存放的都是通过实验方法直接获得的基础数据。而二级蛋白质数据库都是在一级数据库的基础上分析加工出来的。

一、UniProt介绍

我们首先来看一级蛋白质序列数据库。一级蛋白质序列数据库包含三大蛋白质序列数据库，Swiss-Prot，TrEMBL 和 PIR，这三个数据库共同构成 UniProt 数据库。

Swiss-Prot 是一个人工注释的蛋白质序列数据库。它拥有注释可信度高，冗余度小的优点。它是由欧洲生物信息学研究所 EBI 与瑞士生物信息学研究所 SIB 共同管理的。
TrEMBL 也是 EBI 和 SIB 共同管理的一个数据库，他与 Swiss-Prot 的区别是:TrEMBL 里的蛋白质序列注释是由计算机完成的，它包含了 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。换言之，TrEMBL 是通过计算机，把核酸序列数据库里能编码蛋白的核酸序列都翻译成了蛋白质序列，然后把这些计算机翻译出来的蛋白质序列存入其中。可想而知，这样的数据库一定是可信度低而冗余度大的。好在 TrEMBL 把已经包含在 Swiss-Prot 数据库中的序列剔除掉了。也就是在 Swiss-Prot 里已经有人工注释的蛋白质序列在 TrEMBL 里就不再出现了。
PIR 数据库是蛋白质信息资源数据库，他设在美国 Georgetown 大学医学中心。是一个支持基因组学，蛋白质组学和系统生物学研究的综合公共生物信息学资源。

2002 年，Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质数据库协作组，管理联合蛋白质序列数据库，也就是 UniProt 数据库。

UniProt 数据库有三个层次:

第一层叫 UniParc，收录了所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙。
第二层是 UniRef （UniProt Non-redundant Reference），他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50；
第三层是 UniProtKB （UniProt Knowledgebase），他有详细注释并与其他数据库有链接，分为 UniProtKB 下的 Swiss-Prot 和 UniProtKB 下的 TrEMBL 数据库。关系稍有点复杂，但实际上我们最常用的就是 UniProtKB 下的 Swiss-Prot 数据库。(大多数情况，我们检索蛋白质序列信息，都是去的UniprotKB)

1.1 UniprotKB中的编号ID

UniprotKB中主要有两种编号系统：

Accession number
Entry name 。

由于UniprotKB包括了Swiss-Prot（人工注释）和TrEMBL（计算机注释），所以entry name有两种命名方式：

UniprotKB/Swiss-Prot entry name
UniprotKB/TrEMBL entry names 。

UniprotKB/Swiss-Prot entry name:

UniProt 中录入的数据都被分配了一个唯一的 Entry name。UniprotKB/Swiss-Prot Entry name可以由多达11个的大写字母+数字组成。它的命名方式可以表示为X_Y的形式。X是蛋白质或基因名称的缩写（并不是标准的Gene name），最多可以由五个字符组成。“—”表示下划线。Y代表物种的编码，最多也是只能由五个字符组成（通常由属名的前三个字母和种名的前两个字母组成）。

例如：

PURQ_ZYMMO
INS_HUMAN

UniprotKB/TrEMBL entry names

UniProtKB/TrEMBL的Entry name 由多达16个大写字母数字字符组成，其命名形式类似于UniProtKB/Swiss-Prot，也是X_Y的形式。其中，X与登录号（Accession number）相同，由6或10个字母数字字符组成。“—”代表下划线。Y代表物种的编码，最多也是只能由五个字符组成。因为TrEMBL中的蛋白质数据太多，不可能所有的条目都人工进行物种编码。所以TrEMBL启用了“虚拟编码”来对物种进行分类。这些虚拟的物种编码都是以数字9为前缀，举例来说，如下：

Mnemomnic code	Taxonomic identifier	Scope
9BACT	2	Bacteria
9CNID	6073	Cnidaria
9FUNG	4751	Fungi
9REOV	10880	Reoviridae

Accession Number:

UniprotKB中的每个条目都会分配一个唯一的Accession Number。accession number不会随数据的更新而变化，只有数据被删除的时候，accession number才会被删除。所以它是非常稳定的标识符，相当于数据库中的主键。 Uniprot的登录号（accession number）由6个或者10个字母数字的组合构成。构成方式是：

[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}

例如：A2BC19, P12345, A0A022YWF9

Entry name与Accession Number的关系和区别:

提交数据到UniprotKB之后，每个数据都会被分配一个Accession Number（AC号），这个AC号是唯一的。为了减少数据冗余，如果将UniprotKB中的多个数据合并成一个，AC号仍然是保持不变的。Entry name也是每个数据唯一具有的标识符，它可以展示数据的生物学信息。但是Entry name并不是稳定存在的，比如说我们要将TrEMBL中的数据转入Swiss-Prot，那么我们需要变更数据的Entry name，此时同一个数据的Entry name就发生了改变，但是它的AC号仍然保持不变。这就是他们之间的区别！

还有需要注意的是，一个数据可能有两个或者多个accession number 。原因主要有两个：

当合并两个或多个数据条目时，保留所有数据条目的登录号。第一个AC编号称为“主要AC编号”，其他编号称为“次要AC编号”。编号排序是按字母数字顺序排列的。
如果现有数据条目被分割为两个或多个数据条目(“拆分”)，新的“主要”登录号将归属于所有分裂的条目，而所有原始登录号将保留为“次要”登录号。例如：P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次级登录号均为P29358 。

所以，UniprotKB建议，我们最好使用数据的主登录号作为数据引用的方式（不是Entry name ，也不是二级登录号），因为主登录号是唯一并且稳定存在的数据标识符。

1.2 niProtKB/Swiss-Prot数据小统计

截至2018年9月，UniProtKB/Swiss-Prot中共有558,590个Entry name,可见Entry name数量随时间是迅猛增长的

在UniProtKB/Swiss-Prot的数据中，植物占很大一部分，人类数据也占比很多！

蛋白质序列长度分布在0-500左右，最短的蛋白质序列长度只包含2个氨基酸，最长的蛋白质序列包含35,213个氨基酸

1.3 历史背景

美国国家人类基因组研究院（National Human Genome Research Institute ，NHGRI) 与美国国家卫生研究院的(NIH)其它5家研究中心和研究院于10月23日宣布，将资助建立一个统一的蛋白数据库（Unified Protein Database)，缩写为UniProt。未来3年内，NIH将共投资1500万美元资助该计划。目前，世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库，NHGRI的项目主任Peter Good介绍说。

但由于编辑详细蛋白结构数据库时间紧迫，再加上资金短缺，SWISS-PROT无法跟上基因组学飞速前进的步伐，Good说。这种形势导致了TrEMBL的产生，这是计算机注释的SWISS-PROT分支数据库，目的是暂时储存日益增多的蛋白质结构信息。另外，美国的蛋白信息资源（Protein Information Resource**，PIR**)也独立编辑其自己的数据库。现在，这三个计划的领导人将展开合作，将三大数据库合并为一个。联合起来的力量将“减少重复工作，由此也可以节省不必要的费用。”SWISS-PROT的领导人、英国剑桥欧洲生物信息研究院的Rolf Apweiler说道。Apweiler表示，UniProt将是 SWISS-PROT**、TrEMBL和PIR三大数据库的最佳整**合。他期望着这个蛋白数据库能够于2003年底上网。未来的网址为 www.uniprot.org。

“这个计划来的正是时候。”波士顿Dana-Farber癌症研究院的结构生物学家Jia-huai Wang称赞道。测序者们已经产生了大量蛋白信息，但只有少数蛋白的结构被破译。“有了这样一个综合可靠的数据库，科学家就可以更为准确地根据相关蛋白的信息来预测其它蛋白质的结构和功能。”Wang说。

一个集中化的数据库十分重要，密歇根大学的肿瘤学家Samir Hanash对此表示同意。他同时也是人类蛋白组组织（Human Proteome Organisation）的主席。然而，Hanash提醒说，UniProt只是一个开始，还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息，他说。（2002年）

二、UniProtKB 注释解读

这一节我们从 UniProt 数据库查看一条蛋白质序列(http://www.uniprot.org/)。在 UniProt 数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到，TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。统计表里清楚的写着:TrEMBL 是自动注释的，没有经过检查，而 Swiss-Prot 是人工注释的，并且经过检查。这是 Swiss-Prot 和 TrEMBL 最大的区别，一定要记住。跟 NCBI 的网站一样，UniProt 数据库的首页上也有一个搜索条，选择 U n i p r o t K B 数据库，然后输入 “ h u m a n d u t p a s e ”。上节课我们一直在研究 d U T P a s e ，从 P u b M e d 查文献到 GenBank 查看编码这一蛋白的 dut 基因。这节课我们继续研究它。这次我们直接查看 dUTPase 的蛋白质序列。

通过关键词搜索我们找到了很多条蛋白质序列。从蛋白质的名字来看，第一条应该是我们想要的。Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号，Entry_Name 是检索名，检索号与检索名平行运行，都是一条序列在数据库中的唯一标识，两者作用相同，只是写法不同。从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标我们可以获知序列是被人工检查过的还是没有。也就是说，有加星文档图标的是 Swiss-Prot 中的数据，没有的是 TrEMBL 里的。后面这几列，依次是蛋白质的名字，编码这一蛋白质的基因的名字，所属物种以及序列长度。点击第一条序列的检索号，打开这条数据库记录。

UniProtKB 中的数据库记录分成几个部分，左侧是注释标签，点击其中某一个标签可以直接跳转到该部分注释。上方是工具标签，可以用于和其他序列进行比较，格式转换，存储等。工具标签下方是这条蛋白质序列的基本信息，蛋白质的名字，基因的名字，所属物种，以及状态。这里有加星文档图标，是被人工检查过的，应该属于 Swiss-Prot 数据库。注释打分 5 星，说明注释得很全面，并且这些注释在蛋白质水平上有实验依据。再往下就是具体的注释内容了。

Function，功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知 dUTPase 是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源，让你有据可查。
Names & Taxomomy 给出了蛋白质的各种名字，包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。
Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能。蛋白质在细胞内不同组分中的定位即为蛋白质的亚细胞定位。亚细胞定位对蛋白质的生理功能有着直接的影响。处于合适的亚细胞定位的蛋白质才能行使其正常的功能。目前，研究亚细胞定位的数据来源基本都是 Swiss-Prot 数据库。上节课我们从 GenBank 里查看人的 dut 基因时得知，dut 基因有两种剪切方式，其中一种会保留前端的一段信号肽，这个信号肽会将蛋白质定位于线粒体。而没有这段信号肽的留在了细胞核。这与 Swiss-Prot 中关于亚细胞定位的注释是一致的。我们看到，这个蛋白有两种异构体(isofrom)，一个亚细胞定位在细胞核，另一个在线粒体。
Pathology & Biotechnology:提供蛋白质突变或缺失导致的疾病及表型信息。比如 99 位的丝氨酸会突变成丙氨酸从而导致磷酸化的缺失，相关具体研究可参考注释来源文献。
PTM/Processing:提供蛋白质翻译后修饰或翻译后加工的相关信息。比如信号肽在蛋白质到达指定位置之后要被剪切掉，有些氨基酸位点上会发生乙酰化、甲基化、磷酸化等翻译后修饰。
Expression:提供了基因在 mRNA 水平上的表达信息，或者在细胞中蛋白质水平上的表达信息，或者在不同器官组织中的表达信息。
Interaction:提供了蛋白质之间相互作用的信息。包括 UniProtKB 中直接与这个蛋白质有两两相互作用的蛋白质序列的链接，以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。
Structure:提供蛋白质二级结构和三级结构信息。这里请注意，只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。
Family & Domains:提供蛋白质家族及结构域信息。这个蛋白质是属于 dUTPase 家族的。它有三个重要的区域用于和其他分子结合。此外还有与系统发生学数据库以及结构域数据库之间的链接。
Sequence:提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。这个蛋白质有两个异构体，一个线粒体型的，一个细胞核型的。所以会显示两条序列。FASTA 按钮提供 FASTA 格式序列。
Cross-references:列出了所有通往其他含有该蛋白质信息的数据库的链接。
Publications:列出了有关这个蛋白质已发表的所有文献的信息。
Entry information:提供有关这条数据库记录的录入信息，外加一个免责声明。
Miscellaneous:杂项，包含任何无法归入前几项的内容。
Similar Proteins:在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋白质，并按相似度高低分组。如上节课所讲，凡是名字里有 ref 的数据库都是非冗余数据库， UniRef 亦是如此，它属于 UniProt 数据库的第二个层次。
网页版的数据库记录也可以像 GenBank 一样保存成纯文本格式的本地文件。这种文本格式的数据库记录每一行都有一个两个字母组成的条目索引，用以说明这一行记录的是什么内容。条目索引所代表的具体内容可以参见下表。

表 1. UniProtKB 纯文本(Flat File)格式数据库记录条目索引含义表

三、ftp数据详解

3.1 下载人的参考基因的序列

ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/reference_proteomes/Eukaryota/

选择UP000005640_9606.fasta （9606是人的ID编号, homo sapiens; UP000005640是蛋白质组编号）

3.2 下载目录解析

ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/ # 最新的版本

每四周更新一次

3.2.1 Universal Protein Resource (UniProt)

通用Universal Protein Resource（UniProt）是欧洲生物信息学研究所（European Bioinformatics Institute，EBI），瑞士生物信息学研究所（SIB， Swiss Institute of Bioinformatics）和蛋白质信息资源（Protein Information Resource，PIR）之间的合作，由三个数据库组成，每个数据库针对不同用途进行了优化。 UniProt Knowledgebase（UniProtKB）是广泛策划的蛋白质信息的中心访问点，包括功能，分类和交叉引用。

UniProt Reference Clusters（UniRef）将密切相关的序列组合到单个记录中以加速序列相似性搜索。
UniProt Archive（UniParc）是所有蛋白质序列的综合存储库，仅由唯一标识符和序列组成。
UniProt Knowledgebase（UniProtKB）由Swiss-Prot，TrEMBL和PIR-PSD创建。 2004年12月31日的PIR-PSD版本80.0已完全整合到这些部分中。这是PIR-PSD的最后一个版本。

knowledgebase

complete 该目录每四周更新，包括UniProtKB / Swiss-Prot（完全注释的策划条目）和UniProtKB / TrEMBL（计算机生成的条目，包含自动分类和注释）。 UniProtKB / Swiss-Prot和UniProtKB / TrEMBL均可以flat file，XML和FASTA格式单独提供。

3.2.2 reference proteomes

Proteomes 蛋白质组

UniProt提供了几组被认为由基因组完全测序的生物体表达的蛋白质，称为“蛋白质组”。
在过去，这些集合基于生物体的分类，结合关键词Complete proteome，但随着越来越多的同一生物体的基因组被测序，我们引入了独特的蛋白质组标识符来区分单个蛋白质组。
可以从UniProt网站的Proteomes部分查询和下载这些蛋白质组。作为蛋白质组的一部分的UniProtKB条目对其蛋白质组具有交叉引用。

Reference proteomes 参考蛋白质组

随着完整测序的基因组数量的显着增加，以及因此如上所述的蛋白质组的数量的显着增加，以允许用户有效地检索越来越多的可用完整蛋白质组是至关重要的。

UniProt采用的应对这一挑战的方法是定义一组“参考蛋白质组”，它们是蛋白质组空间中的“标志性”。（landmarks）

已经在所有蛋白质组中选择参考蛋白质组（根据许多标准手动和算法）以提供生命树的广泛覆盖。参考蛋白质组构成UniProtKB中可见的分类学多样性的代表性横截面。它们包括经过充分研究的模式生物的蛋白质组和生物医学和生物技术研究中感兴趣的其他蛋白质组。对于特定的生态型或感兴趣的菌株，可以用许多参考蛋白质组来代表特别重要的物种。

这些参考蛋白质组的UniProtKB条目标有关键字Reference proteome。

其他略

3.2.3 uniref

UniProt Reference Clusters (UniRef).

基于100% ，90%，50%的序列Identity，将序列进行聚类，相当于去冗余，减少数据搜索的时间

3.2.4 uniparc

UniProt Archive（UniParc）是一个非冗余的蛋白质序列存档，包含来自所有公开来源的所有新的和修订的蛋白质序列（http://www.uniprot.org/help/uniparc ），以确保完整的序列覆盖可用在一个网站上。为了避免冗余，无论源生物如何，所有在整个长度上100％相同的序列都被合并。新的和更新的序列与源数据库登录号交叉引用，并提供序列版本，该序列版本在对基础序列的更改时递增。存储在每个UniParc条目中的基本信息是标识符、序列、循环冗余校验号、具有登录号和版本号的源数据库以及时间戳。如果UniParc条目缺少对UniProtKB条目的交叉引用，则提供将其从UniProtKB中排除的原因（例如假基因）。此外，每个源数据库登录号都标记有其在该数据库中的状态，指示序列是否仍然存在或已在源数据库中删除，并在适当时交叉引用NCBI GI和TaxId。

uniparc_active.fasta.gz   UniParc sequences with active cross-references to the source database.

uniparc_all.xml.gz        All UniParc sequences including those that have been deleted from the source database.
                          It also includes:
                          - cross-references to the source databases
                          - status of the sequence in the source database 
                            (e.g. if the sequence still exist the status will be "active")
                          - source database accessions and version numbers
                          - if the sequence is not in UniProtKB, the reason for its exclusion
                          - cross-references to NCBI GI and TaxID if appropiate

uniparc.xsd               Schema definition for the UniParc XML

3.2.4 rdf

RDF format数据

这里的数据是为了数据呈现的

3.2.5 decoy

目标诱饵搜索策略(target-decoy search strategy)已经广泛使用并且在期刊指南中被推荐，它包括将诱饵数据库附加到前向数据库并针对该复合数据库搜索MS / MS谱图。它比简单搜索更严格，并允许计算错误发现率的估计。

为了使该策略有效，诱饵数据库必须保持目标数据库的一般组成，同时最小化目标和诱饵之间的肽序列重叠。我们开发了一种新算法，可以对蛋白质进行混洗，并对每种胰蛋白酶肽进行重新混洗，直到它不再与原始数据库中的任何肽相匹配。该方法确保在目标和诱饵数据库之间不共享胰蛋白酶肽。

用于洗牌数据库fasta文件的脚本是免费提供的在Perl模块InSilicoSpectro :: Databanks（http://www.cpan.org ）中。该脚本在LGPL许可下作为开源发布。

由于诱饵数据库的创建与常规的UniProt发布周期一致，因此可以通过声明诱饵数据库名称和发布来明确引用它们。随着时间的推移，主要版本将与原始数据库一起存档。

包含如下几个文件：

uniprot_sprot.decoy.fasta.gz      Decoy version of UniProtKB/Swiss-Prot
                                 in FASTA format.
uniprot_trembl.decoy.fasta.gz     Decoy version of UniProtKB/TrEMBL in
                                 FASTA format.
uniref100.decoy.fasta.gz          Decoy version of UniRef100 in FASTA
                                 format.

四、讨论

4.1 根据uniport entries下载数据

两种方法：

方法一，直接query，例如：

https://www.uniprot.org/uniprot/?query=ADA18_HUMAN+or+ADA19_HUMAN+or+ADA21_HUMAN+or+ADA22_HUMAN+or+ADA23_HUMAN&sort=score

方法二：

https://www.uniprot.org/uploadlists/

方括号里面代表序列的起始和终止位置

4.2 编号的意义

‘sp’ for UniProtKB/Swiss-Prot and ‘tr’ for UniProtKB/TrEMBL

TrEMBL 是计算机注释出来的
SP 人工注释过，可信度更高

4.2 根据基因名提取uniprot氨基酸序列

1.下载uniprot 编号对应的氨基酸序列

https://www.uniprot.org/uniprotkb?query=%28taxonomy_id%3A9606%29

2.基于基因名，提取对应的Uniprot编号

https://biit.cs.ut.ee/gprofiler/convert

其他：

下载ensp的数据：

wget -c https://ftp.ensembl.org/pub/release-113/fasta/homo_sapiens/pep/Homo_sapiens.GRCh38.pep.all.fa.gz

跟多参考： https://www.jianshu.com/p/1f3332848784

参考资料

山东大学生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件
https://www.uniprot.org/help/reference_proteome

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn