【4.2.1】预测RNA二级结构RNAfold

一、简介

网址:http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi

默认参数会输出以下两种二级结构:

  1. optimal secondary structure。最佳二级结构,保证对应的自由能最小,最小自由能简称MFE, 结果示意如下
  2. centroid secondary structure。自由能表征改变这个结构需要注入的能量大小,对应的数值越小,该结构越稳定。

同时给出了可视化结果,示意如下

一、安装和下载

官网:https://www.tbi.univie.ac.at/RNA/

cd /data/software/viennarna
wget -c https://www.tbi.univie.ac.at/RNA/download/sourcecode/2_4_x/ViennaRNA-2.4.14.tar.gz

tar -xzvf ViennaRNA-2.4.14.tar.gz
cd ViennaRNA-2.4.14
./configure --prefix /data/software/viennarna/viennarna-install-2.4.14

make
make install

运行命令

/data/software/viennarna/viennarna-install-2.4.14/bin/RNAfold -p -d2 --noLP -i test.fa --otest_result.out

输入结果:

>1
  2 GAUGCUCGGACGCCCCACCAAGG
  3 ....((.((........)).)). ( -1.20)
  4 ....,,.((.....,..,}.,,. [ -1.84]
  5 ....................... {  0.00 d=2.87}
  6  frequency of mfe structure in ensemble 0.355158; ensemble diversity 4.06

结果注解:

  • The optimal secondary structure in dot-bracket notation with a minimum free energy of -1.20 kcal/mol is given below.

  • The free energy of the thermodynamic ensemble is -1.84 kcal/mol.

  • The frequency of the MFE structure in the ensemble is 35.52 %.

  • The ensemble diversity is 4.06 .

2.2 更多参数说明

-noPS 参数代表不产生二级结构对应的postscript文件,这种文件可以转换为PDF格式,产生的str文件内容如下

>hsa-let-7a-1
UGGGAUGAGGUAGUAGGUUGUAUAGUUUUAGGGUCACACCCACCACUGGGAGAUAACUAUACAAUCUACUGUCUUUCCUA
(((((.(((..((((((((((((((((...(((.....))).((....))....))))))))))))))))..)))))))) (-35.60)

采用dot-bracket表示法标记二级结构,上述用法只给出了最佳的二级结构预测结果和对应的自由能。

–noPS Do not produce postscript drawing of the mfe structure.

                                (default=off)
  --noDP                    Do not produce dot-plot postscript file
                              containing base pair or stack
                              probabilitities.
                                (default=off)

不添加 –noPS 参数,会反馈一个碱基于碱基配对的信息,可用于挖局结构信息。

对应的dot配对信息(这个编号,是序列的自然编号的位置):

] def
/pairs [
[2 20]
[3 19]
[7 16]
[8 15]
[30 47]
[31 46]
[32 45]
[33 43]
[34 42]
[35 41]
] def

代码解析:

with open(input_ss) as data1:
	data_here = str(data1.read().strip()).replace('\n','___')
	# print(data_here)
	match_info = re.findall('pairs \[.*def',data_here)
	match_here = match_info[0].split('___')[1:-1]

	for one_p in match_here:
		one_p = one_p.replace('[','').replace(']','').split(' ')
		one_pair = [int(one_p[0]),int(one_p[1])]
		dot_pair.append(one_pair)
	print(dot_pair)
return dot_pair

二、文献算法解读

修改了用于预测RNA二级结构的动态编程算法,以适应由化学修饰确定的折叠限制,并包括当相邻或被单个错配分开时,螺旋的同轴堆叠(coaxial stacking of helices )的自由能增量。此外,对自由能参数进行了修改,以解决终端不匹配( terminal mismatches )以及发夹,凸起(bulge),内部和多分支回路( internal, and multibranch loops )的最新实验结果。为了证明该方法的适用性,在大肠杆菌和白色念珠菌中对5S rRNA进行了体内修饰,分别使用1-环己基-3-(2-吗啉代乙基)碳二亚胺甲基对对甲苯磺酸盐,硫酸二甲酯和乙二醛。通过使用修饰限制,对于大肠杆菌序列,预测结构中已知碱基对的百分比从26.3%增加到86.8%。对于白色念珠菌,无论有无修改数据,其准确度均保持在87.5%。平均而言,对于这些序列以及从文献中获取的具有已知二级结构和化学修饰数据的一组14个序列,准确性从67%提高到76%。这种增强主要反映了对三个序列的改进,这些序列仅基于能量学的预测精度就小于40%。对于这些序列,包含化学修饰约束条件可将平均准确度从28%提高到78%。对于具有<6%假结碱基对的11个序列,在化学修饰的约束下预测的结构平均包含84%的已知规范碱基对。

2.1 前言

最近的发现表明,RNA在生物学上的作用比以前意识到的要大,例如,在转录后调节(1),发育(2、3),免疫力(4、5)和肽键形成(6、7)中 。 必须确定RNA的天然结构以了解其作用机理,确定二级结构是该过程中的关键步骤。

RNA二级结构可通过自由能最小化和最近邻参数( nearest neighbor parameters )来评估稳定性来预测(8-18)。 先前的研究表明,核酸酶切割数据可用于完善结构预测并提高准确性(8、11)。 预测的二级结构可以指导进一步的实验或比较序列分析(19),还有助于RNA分子的设计(20,21)。

化学修饰(Chemical modification)是一种揭示溶剂可及核苷酸( solvent accessible nucleotides )的技术(22)。 在AU或GC对中在螺旋末端,在任何位置的GU对中或与GU对相邻的1-cyclohexyl-3-(2-morpholinoethyl)碳二亚胺甲基对甲苯磺酸盐,甲基丙烯酸二甲酯和kethoxal均可访问的核苷酸未配对 。 这种有限的特异性不同于用核酸酶观察到的特异性,并且尚未报道允许来自这种化学修饰的限制的算法。 化学修饰被广泛用于测试假设的RNA二级结构(19,23–28)。 化学修饰也可用于推断RNA内可能的三级接触(29),探测与蛋白质结合的RNA(25、26、30-35)或遵循RNA折叠途径(36-38)。 该方法可以在体内绘制RNA(39 – 43),而核酸酶映射则无法实现。 这是一个重要的优点,因为关于将纯化的RNA还原成其天然构象尚不清楚。

在这项研究中,用于预测RNA二级结构的动态编程算法已经过修订,以使用实验确定的化学修饰约束条件。 当仅凭自由能最小化预测了40%的已知碱基对时,这些约束条件便大大提高了结构预测的准确性。 自由能的最近邻居参数也在最近的实验基础上进行了修改,并且 RNASTRUCTURE 程序现在包括同轴螺旋堆叠的自由能的术语,这些螺旋彼此相邻或分开,由多分支和外部环路中的单个不匹配项分隔。

2.2 方法

2.2.1 最近邻居参数 Nearest-Neighbor Parameters

热力学参数基于Xia等人(44-46)和Mathews等(8)的设置人 。 根据最近的实验结果(47、48)和以前的RNA发夹稳定性数据库(49-55)对发夹环参数(表1和2)进行了修订。

三、报错

报错1

fatal error: EXTERN.h: No such file or directory

两种办法:

1). yum install perl-ExtUtils-Embed # 安装perl-ExtUtils-Embed

2). ./configure去掉–enable-perlinterp

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn