【6.2.2】二级蛋白质结构数据库-SCOP2(结构分类数据库)

生物相关性的分析在蛋白质结构分类数据库SCOP[45](Structural Classification Of Proteins)上展开。SCOP是由英国医学研究委员会(Medical Research Council,简称MRC)的分子生物学实验室和蛋白质工程研究中心负责开发和维护的。该数据库对已知三维结构的蛋白质进行分类,并描述了它们之间的结构和进化关系。鉴于目前结构自动比较程序还不能可靠地鉴别所有的结构和进化关系。SCOP数据库的构建除了使用计算机程序外,还是主要依赖于人工验证。由于蛋白质结构种类繁多,大小不一,有的只有一个结构域,有的则有许多不同的结构域组成,构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质,有时则需要同时从单个结构域和多个结构域水平上来加以考虑。SCOP数据库从不同层次对蛋白质结构进行分类,来反映它们结构和进化的相关性。SCOP数据库将PDB数据库中的蛋白质按传统分类方法分成α型、β型、α/β型(α螺旋和β折叠交替出现)、α+β型(α螺旋和β折叠连续出现),并将多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白单独分类,一共分成七大类型,并在此基础上,按折叠类型、超家族、家族三个层次进行逐级分类。当然,不同层次之间的界限并不是十分严格,通常层次越高,越能清晰地反映结构的相似性。对于具有不同种属来源的同源蛋白家族,SCOP数据库按种属名称将它们分成若干子类,一直到蛋白质分子的亚基层次。

  • 家族层:SCOP数据库第一个分类层次为家族,其依据为序列相似性程度。通常将相似性程度在30%以上的蛋白质归入同一家族,即它们之间有比较明确的进化关系。
  • 超家族层:如果序列相似性较低,但它的结构和功能特性表明它们有共同的进化起源,则将其视作超家族。
  • 折叠类型层:无论有无共同的进化起源,只要是二级结构单元具有相同的排列和拓扑结构,则认为这些蛋白质具有相同的折叠方式。在此种情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构

SCOP数据库蛋白质结构分类统计

种类 折叠家族 超家族 家族 合计
α型 259 459 772 1490
β型 165 331 679 1175
α/β型 141 232 736 1109
α+β型 334 488 897 1719
多结构域蛋白质 53 53 74 180
膜及细胞表面蛋白 50 92 104 246
小蛋白 85 122 202 409
合计 1087 1777 3464 6328

SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更 多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。和 CATH 一样,SCOP 的结构 分类也基于四个层次。第一层也叫 Class,也是基于二级结构成分分类。Class 之下是 Fold, 主要考虑结构的空间几何关系。再往下是 Superfamily,基于远源的蛋白质进化关系分类。最 后是 Family,基于近源的蛋白质进化关系分类。注意 SCOP 和 CATH 里面都有提到 Superfamily 这个词,但两者的含义并不相同。CATH 里 Superfamily 是指的从 C 到 A 到 T 再到 H 这样四 层的一个精细结构分类。而 Scop 中,Superfamily 是结构分类的第三个层次的名称。目前, SCOP 已升级为 SCOP2( http://scop2.mrc-lmb.cam.ac.uk )。

SCOP2 的主页上也有搜索条,可以查看某一个 PDB 结构的结构分类。图 1 搜索结果中 的第 2 到第 5 条,就是该蛋白质结构的四层分类。第一层 Class,第二层 Fold,第三层 Superfamily, 第四层 Family。第一层 Class 之上是 SCOP 数据库的根。第 4 层 family 之下是这个蛋白质的 名字,再往下是所属物种。虽然从这个谱系上看有 7 个层次,但实际上真正的结构分类只有 中间四层。

参考资料

  • 山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件
  • 郎美娜 硕士论文《蛋白质三级结构比对方法及其应用》
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn