【9.1.2】寻找保守序列-WebLogo(序列标识图)

通过多序列比对下方的星星点点可以大致 发现图 1 中两个红框中的区域比较吸引眼球,因为星星点点特别多!我们稍微回忆一下这些 密码的含义:“*”代表这一列残基完全相同;“:”代表这一列残基或者相同或者相似;“.” 代表这一列残基有相似的但也有不相似的;什么都没有代表这一列残基都不相似。所以我们 寻找的就是星星点点特别多的区域。当然用眼睛来数星星不那么靠谱。我们仍然需要借助软 件来更好的寻来保守区域。

这里介绍一个新的概念,序列标识图(sequence logo)。序列标识图就是序列的 logo,它 是以图形的方式依次绘出序列比对中各个位置上出现的残基,每个位置上残基的累积可以反 应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成 正比。 但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。图 2 是用一款流行的软件 WebLogo 创建的序列标识图。

要创建序列标识图,首先需要一个多序列比对。多序列比对中的一列对应序列标识图中 的一个位置。然后分别计算每一列中不同残基出现的频率,再根据以下公式把频率转换成高 度值,最后根据高度值写出不同残基的彩色字母图形。

如果某一列非常保守,字母高度就高。反之,如果某一列没有什么特征,各种残基都有 出现,杂乱无章,那么就会看到一堆比较矮的字母摞在一起。这里再次强调,字母的高度和 它在某一列中出现的频率成正比,但是并不等于频率。试想一下,如果字母高度就是频率的 话,那么序列标识图中每个位置上字母摞起来的总高度应该是一样的,都是 100%。但是从 图 2 中可以看到,序列标识图上每个位置字母摞起来的总高度是不一样的,这是因为在字母 高度的计算过程中涉及了熵值。某一列中字母出现的情况越混乱,熵值越大,字母越矮。字 母出现的情况越有规律,熵值越小,字母越高。所以序列标识图可以很好的展现多序列比对 中每一列的保守程度,即,它们是杂乱无章的,还有有规律可循的。并且把可循的规律图形 化的展现出来。这就是我们为什么要给序列打上 logo 的原因。

WebLogo 是一款在线创建序列标识图的软件(http://weblogo.threeplusone.com/)

主页面上点“Create your own logos”,然后输入多序列比对(图 2)。WebLogo 可以接受 大多数常见的多序列比对格式。示例文件 promoter.fasta 是一组启动子序列的多序列比对, 以 FASTA 格式存储。FASTA 格式的多序列比对要求把多序列比对中的每一条序列连同插入 的空位一起按 FASTA 格式书写,写完一条序列再写下一条。这和之前讲过的 Clustal 格式不 太一样。在序列输入框的下方可以设置不同参数,以定义序列标识图的样式,比如设置序列 标识图的创建范围、定义字母的颜色方案等。保持所有参数默认,点“Create WebLogo”。

图 3 为创建出的序列标识图。从图中可以清晰的看到:输入的这些启动子序列上 TATA-Box 的共有特征序列,以及它们出现的位置。

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn