【5.1】多序列比对

两条以上的 生物序列进行的全局比对就是多序列比对(图 1)。为了看清楚每一列的保守情况和理化性 质,通常会给多序列比对根据不同的原则赋予丰富的色彩。

一、用途

  1. 我们可以通过多序列比对确定某一个未知序列是否属于某一个 家族。
  2. 可以用多序列比对构建系统发生树,查看物种间或者序列间的进化关系。事实上, 做多序列比对是构建系统发生树的必要步骤之一。
  3. 模式识别。一些特别保守的序列片段 往往对应着重要的功能区。通过多序列比对,可以找到这些保守片段,并由此推测出潜在功 能区。
  4. 可以把已知的有特殊功能的序列片段通过多序列比对做出匹配模型。然后根据这 个模型推测未知的序列片段是否也具有这个功能。除此之外,多序列比对在生物信息学分析 的很多方面都有应用,比如用来预测蛋白质的二级结构和三级结构,预测 RNA 的二级结构 等等。由此,我们可以看出,多序列比对的应用是非常广泛的。

二、算法

两条序列的比对需要构建一个二维表格,然后从 右下角到左上角找出一条最优路线。如果是做 3 条序列的比对,应该做一个三维立方体,从 (0,0,0)这个位置到(n,n,n)这个位置找到最优的贯穿路径。以此类推,如果是做 n 条序列的比对,就要创建一个 n 维空间。这个 n 维空间实在是难以想象,但是有一点是明确的, 就是到了 n 维我们已经没有办法再像二维那样精确的计算出比对结果了。由于计算量过于巨 大,所以目前所有的多序列比对工具都是不完美的。它们都使用一种近似的算法。目的就是 为了缩短计算时间,但也因此牺牲了一定的准确度。好在多序列比对并不像双序列比对对准 确度要求极高。通常,我们是要从多序列比对中看到一个趋势,一个大体的位置,所以牺牲 掉的这点儿准确度影响不大。

三、注意事项

  1. 做多序列比对的序列个数不能太多,一般 10 到 15 条序列刚好,最好不要超过 50 条。序列太多,任何软件都受不了。
  2. 关系太远的序列不适合做多序列比对。两两之间序列相似度低于 30%的一组序列 做多序列比对要么做不出来,要么即使勉强做出来了,做得也是零七八碎,没有任何意义。
  3. 关系太近的序列不适合做多序列比对。两两之间序列相似度大于 90%的序列,有再多条都只等于一条。做出来的多序列比对无非就是把各条序列抄写了一遍,没有任何意义。
  4. 短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列纯属捣乱分子,受不了。第五条重复域的序列受不了。如果序列里包含重复片段,大多数多序列比 对的程序都会出错,甚至崩溃。此外,给序列起名字也要谨慎。 1)序列名字里不要有“空格”,用下划线代替“空格”是个好习惯。 2)不要使用特殊字符,比如中文,@,#之类的。 3)序列名字不要太长,最好在 15 个字符以内。 4)一组序列里,不要有重名的序列。

如果不按上述几点建议命名的话,多序列比对工具会在不告诉你的情况下修改你的序列 名称。比如这个名字“This_is_my_favorite_sequence_about_mouse”是一定会被 程序截短的。通常只保留前 15 个字符。如果区分各个序列的关键词恰好在后面,那么截短 之后,所有序列的名字都一样了,很难分辨。掌握了这几点之后就可以开始做多序列比对了。

四、工具

4.1 EMBL - Clustal Omega

目前世界上最流行的多序列比对工具是 CLUSTAL 系列,TCOFFEE 和 MUSCLE。其中 CLUSTAL 系列使用率最高;TCOFFEE 最新,而且还有很多变形;MUSCLE 最快,而且胃 口大,能接受的序列数量是其他工具比不了的。各大生物网站,比如 EBI、Expasy 等都可以 在线使用这些工具。当然它们也有自己的网站。

我们先介绍 EMBL 的多序列比对工具(http://www.ebi.ac.uk/Tools/msa)。EMBL 的多序 列比对工具很多,包括前面提到的 CLUSTAL 系列、TCOFFEE、MUSCLE。我们看 EMBL 这些比对工具中 CLUSTAL 系列的最新版本 Clustal Omega。

要比较的多条序列存放在 msa.fasta 文件中。这个文件里存了 10 条序列,每条序列都用 FASTA 格式书写。这样程序会根据“>”自动识别出每条序列以及它们的名字。这就是 FASTA 格式的好处。进入 Clustal Omega 参数输入界面(图 1),黏贴或者上传序列。

在这个界面里可以点通过点击 More options,设置各种设置。在这个例子里,所有参数都使用默认值。参数里有输出格式(OUTPUT FORMAT)和输出顺序(ORDER)这两个参 数。输出格式里可以选择常用的多序列比对格式。我们选标准的 Clustal 格式。这是最常见的多序列比对格式。输出顺序参数可以设定多序列比对中各个序列的排列顺序。“aligned” 是按照比对过程中自动创建的计算顺序排列;“input”是按照输入序列的原始顺序排列。输 入序列是按照 TLR10、9、8、7…这样的顺序排列的。输出顺序参数设定为 aligned,看看比 对结果里序列的排列顺序是否发生了变化。

做多序列比对的时间要比双序列略长。序列越多,序列越长,则时间越长。Clustal 格式 的输出结果如图 2 所示。可以看到,比对中序列的排列顺序跟输入的时候不一样了,这是按 照比对创建时的计算顺序排列的。请点击 Download Alignment File 保存将当前结果,以便后 面章节进一步加工。保存的文件后缀名是“.clustal”。它是一个纯文本文件,用写字板或者 记事本都可以打开。

图 2 中的多序列比对结果和本章开头看到的还是有一点点差别的。也就是黑白与彩色的 差别。如果想要添加色彩,点击“Show Colors”。之后,不同的氨基酸根据它们的理化性质 不同会显示出不同的颜色(图 3)。

除了颜色之外,多序列比对每一段的最后一行都有些星星点点的标记。这些标记和双序 列比对中的竖线、双点、单点的意思类似,但并不完全相同。如果某一列是完全保守的一列, 也就是说这一列里的字母完全相同,那么这一列的下面就打一个“*”。如果这一列的残基 有大致相似的分子大小及相同的亲疏水性,也就是这一列的字母要么相同要么相似,没有不 相似的,那么就打一个“:”。如果这一列残基的分子大小及亲疏水性被一定程度上保留了, 但是有替换发生在不相似的残基间,也就是这一列的字母有相似的也有不相似的,那么就打 一个“.”。什么都不标记代表这一列是完全不保守的,也就是这一列的字母全部都不相似。 这些星星点点的标记可以为我们指出保守区域所在的位置,即,星星点点特别密集的区域。

Result Summary 标 签 里 , 给 出 了 全 部 结 果 信 息 的 下 载 列 表 和 一 个 Jalview 的 按 钮 ( 图 4 )。 Jalview 是多序列比对编辑软件,之后的章节里面我们会详细介绍。在下载列表里,如果打开 “Percent Identity Matrix”链接,可以得到所有序列两两之间的一致度矩阵。一致度矩阵的第 一行省略掉了。它和第一列完全相同,都是序列的名字并且按照相同的顺序排列。所以这个 矩阵是以对角线为轴对称的,并且对角线上是某条序列自己和自己的一致度,都是 100%。 这个矩阵可以帮助我们更好的了解这些序列之间的关系。比如我们可以从中发现,一致度最高的一对序列是 TLR1 和 TLR6。

除了通过一致度矩阵了解序列间的关系,还可以通过 Phylogenetic Tree 标签下的 Guide Tree 清楚的看出哪条序列和哪条序列更相似(图 5)。Phylogenetic Tree 翻译成中文是系统发 生树。但是这里要特别注意,这不是真正意义上的系统发生树!它只是在创建多序列比对的 过程中用到的树(Guide Tree),没有经过距离校正,所以不能当作系统发生树来使用。如果 想要根据多序列比对结果构建系统发生树,可以在 Alignments 标签下,点击“Send to ClustalW2_Phylogeny”链接,把做好的多序列比对发送给专门做系统发生树的工具。

4.2 TCOFFEE - Expresso

TCOFFEE 是一个非常流行的多序列比对工具。TCOFFEE 与 CLUSTAL 系列在所使用 的算法上类似,准确度上比 CLUSTAL 系列略高,但计算耗时也比 CLUSTAL 系列略高。最 关键的是 TCOFFEE 有很多种变形,也就是说它有更多的功能。许多网站都提供 TCOFFEE 的在线使用,比如 EMBL 的多序列比对工具里就有 TCOFFEE。但是这次,我们从 TCOFFEE 的网站(http://tcoffee.crg.cat)做多序列比对。

TCOFFEE 本身是一个标准的多序列比对工具,跟 CLUSTAL 没有什么区别。我们来看 它的变形,也就是根据比对序列种类的不同,TCOFFEE 网站下特有的比对工具(图 1)。

针对蛋白质序列的比对工具,除了 TCOFFEE 以外,还有 Expresso,M-Coffee, TM-Coffee 以及 PSI-Coffee。其中,Expresso 最有特色,它是为序列加入结构信息后再做多序列比对的 工具。因为有结构信息的辅助,它可以大大提高比对的准确度。M-Coffee 可以把多个比对的结果整合成一个。TM-Coffee 专为穿膜蛋白打造,PSI-Coffee 专为远源序列打造。同样的还 有针对 RNA 和 DNA 序列的 Coffee。抱歉不能一一品尝,我们就挑他家的特色招牌咖啡, Expresso 尝一下。也就是做加入结构信息的蛋白质多序列比对。

做 Expresso 的序列我们选用网站提供的示例序列(图 2)。Show more options 下,可以 通过各种方式给入输入序列的结构信息。如果你有这些序列现成的结构文件,也就是 PDB 文件,可以直接把它们上传上来。三条序列对应三个上传链接。可以上传的结构文件不只限 于 PDB 数据库下载的,也包括还未正式发表的解析结构或者计算机预测的结构,只要是用 PDB 文件格式保存的,都可以。

如果没有现成的结构文件,但是这些序列在 PDB 数据库里有对应结构的话,你可以从 接下来的输入框里,按照规定的写法,指定哪条序列对应 PDB 数据库中的哪个结构(图 3)。 如果这里输入了信息,Expresso 会自动从 PDB 网站下载指定的 PDB 文件。那些已经本地上 传的结构,Expresso 也会根据序列信息自动匹配出它是哪条序列的结构,不需要再在这里列 出了。如果对结构信息一无所知,只需要将“MODE_PDB”钩选。之后,Expresso 就会自 己在网络上为所有没有指定结构信息的序列搜索相应的结构。你提供给 Expresso 的结构信息越多,计算时间就会越短;你提供结构信息越少,计算时间就会越长。如果只勾选了 “MODE_PDB”,那么需要等待的时间会很长,因为 Expresso 首先要搜索,然后要下载, 最后要计算。因此,留下你的 Email 信息是很有必要的。

比对结果的页面链接会发送至邮箱。打开链接后会得到 Expresso 做出的比对结果(图 4)。 TCOFFEE 系列各比对工具做出的多序列比对的颜色代表比对质量的好坏。越红质量越好, 越蓝质量越坏。这次的比对结果非常令人满意。如果配合上这些序列二级结构信息看一下的 话,你会发现,螺旋和螺旋很好的对在了一起,折叠和折叠很好的对在了一起。

同样的序列做普通的 TCOFFEE,质量远不如 Expresso(图 5)。可以看到二级结构全部 错位。所以,如果你有序列的结构信息的话,用 Expresso 相比用普通的比对工具会大大提 高比对质量。

五、保存格式

要保存哪种格式主要看你下一步要干什么。在选择保存格式之前,需要问自己几个问题。

  1. 你选的这个格式大多数软件都支持吗?
  2. 你的同事能用吗?
  3. 你需要的信息这个格式 都提供了吗?
  4. 这个格式适合进一步加工吗?

通过回答这几个问题来确定你最终需要的格式。如果比对工具输出的格式里没有你想要的哪种,可以通过第三方软件进行格式转换。比 如 fmtseq 工具(http://www.bioinformatics.org/JaMBW/1/2),它可以实现 20 多种格式间的转 换。其中总有一款是你想要的。

六、 多序列比对的编辑和发布:Jalview 的介绍和操作

比对工具刚刚做出来的多序列比对有点儿生,我们通常还需要给它们加工一下。这就需 要多序列比对结果编辑器。它能给比对结果添加各种颜色,还能手动编辑比对。常用的比如 Jalview。这个名字我们之间见过。在 EMBL Clustal Omega 比对结果的 Result Summary 标签下 有 Jalview 按钮(图 1)。这个按钮可以快速启动 Jalview,但这里启动的在线版本功能不完整。

完全版的 jalview 可以从 Jalview 官网(http://www.jalview.org)在线启动,或者下载安装 到本地。从这个图 2 可以看出,Desktop 版的 Jalview 和许多序列分析软件及生物数据库之间 都有关联。通过 Jalview 除了可以加工多序列比对,还可以针对比对中的序列做各种各样的 分析、比如构建系统发生树、预测蛋白质二级结构、查看结构域家族、从 PDB 数据库中查 询三级结构等。此外 Applet 版的 Jalview 可以被加载到网页中,就像 EMBL 的多序列比对工 具那样,可以从网页上直接运行并显示某个比对结果。

在线启动 Desktop 版的 Jalview 可以点击主页右上角的“Launch Jalview Desktop”链接。 Jalview 基于 java 编写,所以要安装 java、信任 java、接受 java、运行 java。主页上在线打开的 Jalview 也并没有安装到本地,只是下载运行了一个远程连接的小插件而已。断网会导致 Jalview 关闭。但这个版本的 Jalview 的功能是完整的。

如果想要将 jalview 安装到本地,获得更稳定的使用体验,可以点击主页上的“Download” 链接。目前 Jalview 支持几乎所有的操作系统,选择适合你的安装。此外,Windows 版本的 安装文件也可以从附件里面下载。

Jalview 打开之后,会自动展示许多 Demo 窗口(图 3)。通过这些窗口,你可以了解到, Jalview 能加工序列比对、做进化树、分析结构,等等。功能确实不少。不过,你需要做的, 是把这些窗口统统关掉。打开你自己的多序列比对(图 4)。点击 File 菜单 - Input Alignment -FromFile- 打开我们之前用ClustalOmega做出并保存的多序列比对结果“clustalo.clustal(”如 果你忘记保存了可以从附件中下载)。因为“.clustal”不是 Jalview 熟悉的后缀名,所以需要 把文件类型改成“所有文件”才能看到它。

在打开的多序列比对窗口的下方有三行柱状图(图 5)。它们体现了比对中每个位置的 保守度高低(Conservation)、比对质量高低(Score)、以及共有序列(Consensus)。从保守度 行,可以很清楚的找到保守区大致的位置。共有序列指的是某一列出现频率最高的那个字母, 比如第 58 列中 W 出现的频率最高,是 100%。如果某一列拥有的最高出现频率的字母是两 个或两个以上的话,会以“+”显示。把鼠标放在“+”上就可以看到是哪些字母出现的频 率一样高。共有序列可以一定程度上体现出某个保守区域所具有的序列特征。以后如果看到 和这段序列长相极其相似的序列,它很可能能跟这个保守区的功能相似。

现在我们开始加工序列比对。首先先上颜色,在 Colour 菜单下有很多种颜色方案(图 6)。 能够和保守度这一行柱状图配合的颜色方案是 Percentage Identity。选了这个颜色方案之后, 每一列会根据这一列的保守度用深浅不同的蓝色表示。蓝色越深说明这一列越保守,反之越 不保守。再配合 Colour 菜单下的“By Conservation”参数,可以从弹出的参数设定窗口中设 定保守程度达到百分之多少以上的才给赋予不同的蓝色,阈值以下的都是白色。 另一个较常用的颜色方案是 Clustal 系列配色方案。这个配色方案和 EMBL 多序列比对 工具做出的结果页面里“Show Colors”之后的颜色方案是基本相同的。具体哪个氨基酸选用 哪个颜色可以参见表 1。我们从文献里看到的彩色多序列比对,大多是用的这种颜色方案。

除了给多序列比对上彩妆,有时还需要给它修理一下局部瑕疵,也就是对局部位置进行 手动调整。比如,从前期实验我们得知,图 1 中方框所示区域的 TLR2、10、6、1 这四条序 列的第 53 列应该往右挪一列,跟 TLR9、8、7 这三条序列的第 54 列对在一起。TLR2、10、 6、1 这四条序列的第 53 列补空位。其他位置不动。

要进行如上调整,首先要同时选中要处理的 TLR2、10、6、1 这四条序列:按住 Ctrl 建,用鼠标点击这四条序列的名字。选中后,序列名字的底色由白变灰,且四条序列被框入 红色虚线框中。然后,再次按住 Ctrl 键,把鼠标放在任意选中序列的第 53 列的字母上,并 向右拖动至第 54 列。拖动后选中序列的第 53 列自动补充空位,原第 53 列移至第 54 列,但 是从第 55 列开始往后的位置也都跟着向右移了一位。所以需要再次用同样的方法,按住 Ctrl 键,把鼠标放在任意选中序列的第 58 列的字母上,向左拖动至第 57 列的位置,以保持第 53、54 列以外的位置不变。如此,便完成了手动调整。

多序列比对的外观也很重要。默认情况下,多序列比对是单行显示的。由于序列长,需要拖动窗口拉条才能浏览全部。这样不利于查看分析,也不利于将导出的比对图片插入文献。 如果想要让多序列比对根据 Jalview 窗口的宽度自动换行,可以在 Format 菜单下勾选“Wrap” (图 2)。此外,还可以通过“Font…”窗口对字体格式、大小等进行调整。

如果你只需要多序列比对,而不需要有关保守度等的注释行。可以关闭 View 标签下的 “Show annotations”选项,以达到去掉注释行的目的。

Jalview 除了有编辑多序列比对的功能还有很多分析功能。比如,可以按照序列的名字、 两两一致度或其他规则给比对中的序列重新排序以及为选中的两条序列做双序列全局比对 (图 4)、为选中的一组序列计算各种系统发生树(图 5)、或者用在线软件为某一条序列预 测二级结构(图 6)。Web service 菜单下的所有功能都需要网络支持才能运行。更多 Jalview 的功能需要大家在实践中不断摸索。

最后一步就是导出多序列比对为图片,插入到需要的地方:File 菜单 - Export Image - 选择图片格式 - 保存(图 8)。

除了 Jalview,还有很多比对美化工具(表 1)。Boxshade 擅长黑白制图。因很多学术期 刊只收取彩图的编辑费,所以黑白图可以节省科研经费。ESPript 的功能十分强大。MView 擅长把彩色多序列比对转换成 HTML 源代码。这样就可以将它直接插入网页,并方便以文 本形式选取。

名称 网址 特点
JalView http://www.jalview.org JAVA,可嵌入网页
Boxshade http://www.ch.embnet.org/software/BOX_form.html 擅长黑白作图
ESPript http://espript.ibcp.fr/ESPript/ESPript 功能强大
MView http://bio-mview.sourceforge.net 擅长转换成 HTML 源码

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学