【7.3】寻找保守序列-PRINTS指纹图谱数据库

目前,科学家已经对现有的蛋白质序列进行了充分的研究,而且早已发现并总结了这些 序列上的重要基序。相关研究成果汇入了 PRINTS 蛋白质序列指纹图谱数据库( http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ )。所谓蛋白质的指纹是指一组保守的序列基序, 用于刻画蛋白质家族的特征。这些基序由多序列比对结果获得,且它们在氨基酸序列水平上 是不相邻的,但是在三维结构中可能紧密地结合在一起。PRINTS 数据库存储了目前已发现 的绝大多数蛋白质家族的指纹图谱。对于一个陌生的蛋白质,只要看看它的序列是否符合某 个蛋白质家族的图谱就可以对它进行分类并预测它的功能。

要浏览 PRINTS 数据库,可以输入数据库编号、关键词、或标题等以查找某一个指纹图 谱。比如点击“By text”通过关键词搜索(图 1)。输入条中输入“TRANSFERRIN”,也就 是搜索转铁蛋白家族的图谱。搜索返回转铁蛋白家族的指纹图谱链接。

点击结果页面中的“TRANSFERRIN”链接后,会显示包括指纹图谱的基本信息、与其 他数据库之间的交叉链接、构建指纹图谱所使用的蛋白质序列、以及指纹图谱中每个基序等具体信息(图 2)。

点击“View alignment”链接后,可以看到创建指纹图谱所使用的多序列比对(图 3)。

点击“View structure”链接后,网页会打开一个三维视图插件,并以该家族中某一特征 蛋白质具有的三维结构为例,在线显示指纹图谱中各个基序在三维结构中的位置(图 4)。 从该三维结构图中可以看出,紫色的基序在氨基酸序列水平上并不相邻,但是在三维空间结 构中是紧密联系在一起的,并形成蛋白质的重要功能区。

除了浏览某一指纹图谱,PRINTS 还提供指纹匹配服务。也就是搜索某一序列所匹配的 指纹图谱。此功能通过 PRINTS 主页也上的“FPScan”链接实现(图 5)。注意输入的待搜 索序列只能是“a raw sequence”,也就是纯序列。换言之,FASTA 格式中带大于号的第一行 不能拷贝进输入框。示例文件 prints.fasta 请从课程附件中下载。

提交后返回的结果页面中,跟输入序列匹配的指纹图谱,根据匹配得分的高低被排列出 来(只列出前十名)(图 6)。此外,还单独列出了排名前三的指纹图谱。由此可知,得分最 高的是视紫红质家族的指纹图谱。

点击排名第一的视紫红质家族的“Graphic”链接,可以得到该家族指纹图谱中各个基 序在输入序列中所匹配的位置(图 7)。结果页面的下部还提供了视紫红质家族的 6 个基序 在输入序列中所对应的具体序列片段。由此,可以推测,输入序列属于视紫红质家族,并具 有该家族蛋白质的主要功能。事实上,输入序列确实是从 UniprotKB 数据库中下载的一条羊 的视紫红质的序列(P02700)。

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学