【3.1.4】MAFFT多重序列比
一提到多重序列比对,很多人禁不住就想到ClustalW(Clustalx为ClustalW的GUI版),其实有一款多重序列比对软件-MAFFT,不论从比对速度(Muscle>MAFFT>ClustalW>T-Coffee),还是比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)来说,其相比于ClustalW(或ClustalX)有过之而无不及,所以这里强烈推荐使用MAFFT这款多重比对软件。
- MAFFT官方网站:http://mafft.cbrc.jp/alignment/software/
- 支持平台:Mac OS X 、Linux、Windows
- EBI 也提供了mafft的在线服务 https://www.ebi.ac.uk/Tools/msa/mafft/
一、安装
二、使用示例
该软件的基本用法如下
mafft input > output
input为fasta格式的输入序列文件,output为fasta格式的输出结果文件。mafft 支持核酸和蛋白序列的多序列比对,内置了多种序列比对算法, 可以分为以下3大类别
- consistency based methods
- iterative refinment methods
- progressive methods
这三种类别的算法在准确度和速度上各有优势,对于运行速度而言,3>2>1;对于准确度而言,1>2>3。
2.1 consistency based methods
L-INS-I(最准确的方法。适合小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --localpair input > output
G-INS-I(适合序列长度相似的比对,小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --globalpair input > output
E-INS-I(适合序列仲包含较大的非匹配区域,小于200条,且长度小于2000aa/nt的序列。)
mafft --maxiterate 1000 --genafpair input > output
运行后的结果如下图。按照最长序列,把相应位置的aa标出来,有gap的地方,则用—补齐。
2.2 . iterative refinment methods
此类算法包含了FFT-NS-i, NW-NS-i 两种算法。
FFT-NS-i 用法如下
mafft --maxiterate 1000 input_file > output_file
NW-NS-i 用法如下
mafft --maxiterate 1000 input_file > output_file
2.3 progressive methods
此类算法包含了FFT-NS-1, FFT-NS-2 2种算法。 FFT-NS-1 用法如下
mafft --retree 1 input_file > output_file
FFT-NS-2 用法如下
mafft –retree 2 input_file > output_file
2.4 如果在比对时,不知道如何选取合适的算法,可以使用以下设置
mafft --auto input > output
软件会根据输入序列的特征,自动选择合适的算法。
2.5 输出
output的仍然是fa文件。到此,就完成了MAFFT的多序列比对了.
如果是直接导入MEGA,fa格式也是没有问题的,因为MEGA里是没有MAFFT这种比对方式的。如果是要用phy格式的话,就需要先转格式了,转格式的话,用seaView和mesquite都没有问题的,不过我是建议用seaView。
三、报错
四、讨论
4.1 比对结果渲染
- BoxShade https://embnet.vital-it.ch/software/BOX_form.html
- ESPript 彩色着色,在线网址: http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
- TeXShade 自定义着色,详见日志: http://user.qzone.qq.com/58001704/blog/136788508
五、我的案例
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn