【1.6】蛋白质分类(EMBL-EBI资源简介与InterPRO)

一、蛋白分类

蛋白质是负责细胞中生物过程的大分子。 它们在氨基酸链的最基本层次上,由基因中的核苷酸序列决定。 根据氨基酸序列(不同的氨基酸具有不同的生化特性)及其与环境的相互作用,蛋白质会折叠成三维结构,从而使其与其他蛋白质和分子相互作用并发挥其功能(请参见下面的图1) 。

共同祖先基因分化成不同的蛋白质被称为同源物(homologous)。 假定具有相似序列的蛋白质是同源的,通常(在一定范围内)具有相似的结构和功能。

1.1 为什么分类蛋白

蛋白质可以根据序列或结构相似性分为几类。 这些基团通常包含功能已知的特征明确的蛋白质。 因此,当鉴定出一种新型蛋白质时,可以根据预测其所属的基团来提出其功能特性。

在本教程中,我们将解释如何定义家族,结构域和序列特征并将其用于蛋白质分类。 尽管这些术语在生物学文献中得到了广泛使用,但您会发现它们的定义可能会因来源而异。 考虑到这一点,让我们看看如何基于以下条件将蛋白质分为不同的组:

  • 他们所属的家庭
  • 它们包含的域
  • 他们拥有的序列特征

1.2 蛋白质家族 protein family

蛋白质家族定义为一组蛋白质,这些蛋白质具有共同的进化起源,反映其相关功能,序列相似性或相似的一级,二级或三级结构

蛋白质家族通常被排列成层次结构,具有共同祖先的蛋白质被细分为更小,更紧密相关的组。 在这种情况下,有时会使用术语超家族(superfamily)(描述一大组远距离相关的蛋白质)和亚家族(subfamily)(描述一小组紧密相关的蛋白质)。下面的图2说明了一个假设的蛋白质家族层次。

组成一个超家族的一组蛋白质是G蛋白偶联受体GPCR。 这些是大量多样的蛋白质,涉及许多生物过程,包括光接收,免疫系统调节和神经系统传递。 在超家族层面,GPCR具有两个共同的特性-它们具有七个跨膜结构域,并在结合细胞外信号后与专门的蛋白质(称为G蛋白)相互作用以影响细胞内途径(您可以访问此GPCR网页以获得更多信息)。

当我们将GPCR分为较小的家族时,各个组具有更多共同点。 例如,蛋白质短波敏感视蛋白1属于一个特殊的家族,称为视紫红质样GPCR。 视紫红质样GPCR本身可以进一步细分为对不同信号有反应的较小家族。 短波敏感视蛋白1蛋白属于视蛋白家族(视蛋白是动物视网膜的光感受器),但更具体地说,它们是蓝敏感视蛋白亚家族的成员,所有这些蛋白均被特定波长的光激活。 上面的图3说明了这种蛋白质家族的层次结构。 从该示例可以看出,当将蛋白质分类为层次家族时,我们可以将蛋白质置于层次结构中的级别至关重要,因为它决定了我们可以推断的特定功能信息的数量。

1.3 protein domain

域是蛋白质中不同的功能和/或结构单元。 通常,它们负责特定功能或相互作用,有助于蛋白质的整体作用。 域可以存在于多种生物学环境中,其中在具有不同功能的蛋白质中可以发现相似的域。

例如,Src同源性3(SH3)结构域是约50个氨基酸残基的小结构域,其参与蛋白质-蛋白质相互作用。 SH3域具有特征性的3D结构(请参见图4)。 它们存在于具有不同功能的各种蛋白质中,包括衔接子蛋白质,磷脂酰肌醇3激酶,磷脂酶和肌球蛋白。

包含多个SH3域的蛋白质的一个例子是胞质蛋白质Nck。 Nck属于蛋白质的衔接子(adaptor)家族,它参与从生长因子受体酪氨酸激酶向下游信号受体的信号转导。 Nck的域组成如下图5所示。

正如我们在Nck上看到的那样,蛋白质可以由多个域组成。 通常,单个结构域具有特定功能,例如结合特定分子或催化给定的反应,这些共同作用于蛋白质的整体作用(例如,参见下面图6中的磷脂酶D1酶的结构域组成) 。

1.4 基于家族和域的蛋白质分类 Family- and domain-based protein classification

  基于家族和域的分类并不总是那么简单,并且可能会重叠,因为有时会根据蛋白质所包含的域将蛋白质分配给家族。下面概述了这种复杂性的一个示例。

蛋白质家族和结构域组成–一个例子

G蛋白信号(RGS)域的调节剂是激活GTPases的蛋白结构单元。在属于RGS蛋白家族的序列中发现了它们,它们是多功能的GTPase加速蛋白。所有RGS蛋白家族成员都包含一个RGS域,但是有些(例如RGS1)仅包含该域,而其他(例如RGS3和RGS6)则包含赋予其他功能的其他域,例如涉及膜靶向的DEP结构域。

RGS结构域还存在于其他家族的蛋白质中,例如β-肾上腺素能受体激酶,毒素和分选nexin家族的某些成员。下面的图7总结了其中一些蛋白质的家族分组和结构域组成。

1.5 What are sequence features?

序列特征是赋予蛋白质某些特征的氨基酸组,对于其整体功能可能很重要。 这些功能包括:

  • 活性位点,其中包含参与催化活性的氨基酸。例如,催化脂肪形成和水解的脂肪酶具有两个氨基酸残基(一个组氨酸,一个甘氨酸),这对于其催化活性是必不可少的。
  • 结合位点,包含直接参与结合分子或离子的氨基酸,如血红蛋白的铁结合位点。
  • 翻译后修饰(PTM)位点,其中包含已知在蛋白质翻译过程后经过化学修饰(磷酸化,棕榈酰化,乙酰化等)的残基
  • 重复序列,通常是在蛋白质内重复的短氨基酸序列,并可能赋予其结合或结构特性。

序列特征与结构域的不同之处在于它们通常很小(通常只有几个氨基酸长),而结构域代表蛋白质的整个结构或功能单元(请参见图8)。序列特征通常嵌套在域中–例如,一个蛋白激酶域通常包含一个蛋白激酶活性位点

蛋白质也可以根据其所包含的序列特征进行分类。 例如,铁氧还蛋白是硫铁蛋白,可在各种生物氧化还原反应(包括光合作用过程)中介导电子转移。 根据其铁-硫簇的性质,它们可以分为几类(您可以在此处找到有关铁氧还蛋白的更多信息)

在2Fe-2S铁氧还蛋白(结合两个铁(Fe)和两个硫(S)原子的簇)中,有4个半胱氨酸残基参与铁硫结合。 2Fe-2S结合位点显示在铁氧还蛋白3D结构上,如下图9所示。

二、什么是蛋白质签名? What are protein signatures?

  为了将蛋白质分类到各个家族中并预测重要域或序列特征的存在,我们需要计算工具。 一组此类工具是称为蛋白质特征的预测模型。

使用不同的计算方法构建的签名类型不同。 但是,它们的共同出发点是具有一组特征(例如,属于同一家族或共享域)的蛋白质的多序列比对(请参见下面的图10)。 建立初始模型时,要考虑比对中不同位置的氨基酸保守程度。 然后使用该模型以迭代方式搜索蛋白质数据库,并在确定数据库中更远相关的序列时完善模型。 一旦模型成熟,就可以准备签名,并将其用于蛋白质序列分析。

2.1 How do protein signatures compare to other ways of classifying proteins?

多个序列比对可以为我们提供蛋白质分类的有价值的信息,因为它们使我们能够鉴定远缘相关蛋白质中保守的(通常很少)氨基酸残基(见图11)。 使用成对比对技术(例如BLAST)无法鉴定出如此重要的残基。 结果,由多序列比对建立的蛋白质特征通常比成对比较法在检测不同同源物方面更好。

2.2 签名类型 Signature Types

  可以使用不同的方法来生成签名。 这些包括:

  • 模式 patterns
  • 型材 profiles
  • 指纹 fingerprints
  • 隐藏的马尔可夫模型(HMM) hidden Markov models (HMMs)

每种方法都从蛋白质的多序列比对开始,并且可以集中于单个保守的序列区域(称为基序),多个保守的基序,或整个蛋白质或特定域的完全比对(参见图12)。

2.2.1 什么是图案? What are patterns

  许多重要的序列特征,例如结合位点或酶的活性位点,仅由几个对蛋白质功能至关重要的氨基酸组成。 模式非常擅长识别此类特征。 通过在多个序列比对中识别这些区域来构建它们。 然后将序列特征内的保守性模式建模为正则表达式,如图13所示。

An example of a database that uses patterns is PROSITE (Bairoch, A. 1991).

2.2.2 What are profiles

  profiles用于建模蛋白质家族和结构域。 它们是通过将多个序列比对转换为位置特定的评分系统(PSSM)来构建的。 如图14所示,根据排列中每个位置的氨基酸进行评分,如图14所示。可以使用替代矩阵(例如BLOSUM矩阵)添加权重这些得分的进化距离。

Examples of databases that use profiles to classify proteins include CDD (Marchler-Bauer A. et al. 2015), HAMAP (Lima. T, et al. 2009) and PROSITE (which produces profiles as well as patterns. Sigrist. CJ, et al. 2010). The PRODOM (Servant. F, et al. 2002) database also uses a related approach, using PSI-BLAST to create its profiles. You can find out more about profiles by reading Gribskov M. et al. 1987.

2.2.3 What are fingerprints?

尽管单基序方法擅长识别蛋白质中的特征,但大多数蛋白质家族的特征不是一个,而是几个按一定顺序出现的保守区域。 识别这些区域是指纹(fingerprints)背后的原理。 指纹由多个短的保守基序组成,这些基序是从序列比对中提取的,如图15所示。然后,每个基序都转换为单独的配置文件(如上一节所述)以创建指纹签名(fingerprint signature)。

指纹非常擅长建模密切相关的蛋白质之间通常很小的差异,如下图16中的示例所示。

这意味着指纹可以区分蛋白质家族中的各个亚家族。 这样可以以高特异性水平对序列进行功能表征(鉴定可能涉及蛋白质的各个细胞途径,可能结合的配体,可能催化的确切反应,等等)。

2.2.4 What are HMMs?

许多数据库都使用隐马尔可夫模型(HMM)。 像Profle一样,它们可用于将多个序列比对转换为位置特定的评分系统。 HMM擅长代表氨基酸的插入和缺失,这意味着它们可以模拟包括比对区域在内的整个比对。 它们是复杂而强大的统计模型,非常适合在数据库中搜索同源序列。

HMMs have wide utility, as is clear from the numerous databases that use this method for protein classification, including Pfam, SMART, TIGRFAM, PIRSF, PANTHER, SFLD, Superfamily and Gene3D.

三、Protein classification resources at the EBI: InterPro

InterPro是EBI进行蛋白质分类的主要资源。

在InterPro中,将来自多个不同数据库的模式,Profile,指纹和HMM整合到一个可搜索的资源中,从而可以方便地访问其预测功能,而无需单独访问成员数据库(请参见图18的概述,用于构建InterPro的数据库)。

通过组合不同的数据库和签名类型(signature types),InterPro可以利用其各自的优势,为预测蛋白质功能提供强大的工具。 InterPro旨在通过以一致的方式组合和组织信息,消除冗余并添加有关签名及其匹配的蛋白质的广泛注释和有用链接,为用户简化和合理化蛋白质序列分析。

When to use InterPro

如果您有一个氨基酸序列或一组序列,并且想知道以下信息,则可以使用InterPro:

  • 他们是什么,他们属于哪个家庭
  • 它们的功能是什么?如何用结构术语解释

您还可以将InterPro用于各种其他目的,例如检查UniProt数据库中已有序列的结构或功能预测。

在以下情况下,InterPro无法为您提供帮助:

  • 您要执行蛋白质序列的结构比对
  • 您具有基因组DNA序列,并且对基因注释(内含子/外显子预测,启动子区域的识别等)感兴趣。

四、摘要

  蛋白质分类允许针对尚未通过实验表征的新型蛋白质推断功能和结构特性。

可以根据蛋白质所属的家族和/或它们包含的结构域和特征对蛋白质进行分类:

  • 蛋白质家族是一组蛋白质,它们具有共同的进化起源,这由它们的相关功能和序列和/或结构的相似性反映出来。
  • 域是蛋白质中不同的功能和/或结构单元,可以在多种生物学环境中存在。
  • 序列特征包括活性位点,结合位点,翻译后修饰位点和重复序列。
  • 签名是由多个序列比对构建的数学模型,可用于对蛋白质进行分类。

相较于成对的序列相似性搜索(例如BLAST),使用蛋白质签名通常是鉴定蛋白质功能的更为灵敏的方法。

不同类型的签名使用不同的方法,着重于单个基序(模式),多个基序(指纹)或考虑整体比对(Profile和HMM),它们在蛋白质序列分析方面提供了独特的优势,可用于将蛋白质分类为家族,或识别域或序列特征。

EBI提供了使用蛋白质签名进行蛋白质家族分类以及域和位点预测的资源:InterPro。 InterPro将来自多个不同源数据库的签名组合到一个可搜索的资源中。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn