【5.2】用于设计定制合成基因的计算工具和算法

DNA合成技术的进步使人工基因,基因回路(circuits)和细菌规模的基因组得以构建。合成构建体从头设计的自由性为研究序列特征突变的影响以及验证关于核酸和氨基酸编码的功能信息的假设提供了巨大的力量。为了实现这个目标,已经实现了许多可变复杂性的软件工具,从而能够基于合理定义的属性设计用于序列优化的合成基因。第一代工具主要处理单一目标,例如密码子使用优化和独特的限制性位点整合。近年来,出现了序列设计工具的出现,这些工具旨在使序列朝着目标的组合发展。遵循多个目标的最佳蛋白质编码序列的设计在计算上很困难,并且大多数工具都依赖启发式方法来采样广阔的序列设计空间。在这篇综述中,我们研究了基因优化背后的一些算法问题,以及不同工具用来重新设计基因和优化所需编码功能的方法。我们利用测试案例来证明每种方法的效率,并确定其优势和局限性。

一、前言

基因表达是现代生物技术的基础。表达是将来自基因的信息用于功能基因产物(通常是蛋白质)的合成的过程。基因表达可在中间步骤调节,包括蛋白质的转录,RNA剪接,翻译和翻译后修饰。在这篇综述中,我们将主要集中在翻译的过程,以及蛋白质编码基因中同义突变赋予相应蛋白质表达的影响。朝着合成生物学的目标努力,精确的蛋白质表达控制对改善异源表达,成功设计和微调基因调控网络具有直接的意义。基因设计已在代谢工程中得到应用,特别是在生物燃料生产中,通过基因优化可以克服限速步骤(Wiedemann和Boles,2008年)。

大规模DNA合成,克隆,DNA测序以及构建生物工程学模块的设计和组装的进步为高通量实验创造了独特的机会,以拓宽我们对基因结构,蛋白质功能和遗传组织的了解(Bugl等等人,2007; Czar等人,2009a)。近年来,已经看到了许多计算工具的开发,这些工具旨在使生命科学家能够创建自己的合成基因和构建体。第一代设计工具主要致力于优化可制造性的设计(即没有局部二级结构和末端重复序列的寡核苷酸),而不是生物活性。但是不久,寡核苷酸设计过程与基因优化过程分离了,出现了分别处理这两个过程的新工具。

这篇综述着重于旨在从计算角度看待旨在重新设计现有基因以优化蛋白质表达的软件工具,以及这些工具背后的算法。存在一套不同的工具,可帮助基于称为遗传部分的功能模块设计合成DNA序列,这些工具通常利用标准生物部分(如Biobricks)的库(Shetty等人,2008)。 GenoCAD(Czar等人,2009b)就是这样一种工具,它依靠正式的设计策略和语法(描述DNA序列结构的规则集)来促进人工DNA序列的构建。 GenoCAD用作生物部分的基因组序列是不可变的,并且在构建结构的创建中未应用任何优化。其他电路(circuit )设计工具包括GEC(Pedersen和Phillips,2009),TinkerCell(Chandran等,2009)和Clotho(Xia等,2011)。

在“基因设计目标和算法”部分中,我们研究了合成基因设计中朝向优化表达的一些最重要目标,并简要分析了它们的计算复杂性。 “基因设计工具”部分专门介绍了11种当前可实现上述目标的基因设计工具。在“实践中的基因设计工具”部分中,我们将详细介绍使用这些工具优化计算机上的绿色荧光蛋白(GFP)基因以进行异源表达的经验,然后简要讨论所检查工具的优缺点。

二、 基因设计目标和算法

基因设计软件工具旨在使用感兴趣的预定义功能指导蛋白质编码基因的重新设计,主要针对改善的蛋白质表达和简化的DNA序列操作。在本节中,我们研究了传统上用于优化基因表达的几种标准,所有这些标准均已纳入一个或多个评估工具中。

2.1 密码子偏倚 Codon Bias

在大多数物种中,同义词密码子的使用频率不相等。密码子使用偏见被认为对塑造基因表达和细胞功能至关重要,影响从RNA加工到蛋白质翻译和蛋白质折叠的各种过程。很少使用的密码子与稀有的tRNA相关,并已显示出抑制蛋白质翻译的作用,而有利的密码子则具有相反的作用,这在原核生物中尤为明显(Lithwick和Margalit,2003)。用稀有密码子替换稀有密码子的过程称为密码子优化。在不考虑其他优化目标的情况下,控制密码子偏倚以调节翻译速率在计算上很容易,因为它仅涉及某些同义替换以达到所需的分布。然而,由于仅文献中评估的少数模型生物的基因变体数量有限,影响效果的量化要困难得多,这限制了基于密码子偏倚措施[例如密码子]的基因表达预测的可靠性适应指数(CAI),如下所述]。然而,已显示通过同义突变使用特定密码子会影响基因表达(Welch等人,2009),在某些情况下会使转基因(异源宿主中表达的基因)的表达增加1000倍以上(Gustafsson等,2004)。

已经提出了许多统计方法,并用于分析密码子使用偏倚。

  • 使用诸如最佳密码子频率(Fop)(Ikemura,1981),CAI(Sharp和Li,1987)和tRNA适应指数(tAI)(Dos Reis等人,2004)等方法来量化密码子偏好。
  • 偏向于代表过高或不足的密码子,并预测基因表达水平,而信息理论的有效密码子有效量(ENc)和香农熵等方法(Suzuki等,2004)则用于衡量密码子使用的均匀性。
  • 相对同义密码子使用(RSCU)(Sharp等人,1986)和同义密码子使用顺序(SCUO)(Wan等人,2004)是后一类中的其他示例。

这些方法中的几种已用于研究密码子偏倚对基因表达的影响的研究,通常没有什么根据。 CAI是相关文献中最普遍使用的密码子偏倚度量,但是这种偏好似乎可以通过历史优先级更好地解释,而不是具有优越的预测能力。

作为单一目标的密码子偏倚优化在算法上很简单,可以在线性时间内根据序列长度进行优化。对于任何给定的密码子偏倚度量(例如CAI,RSCU,ENc等),以及采用/模拟任何给定的密码子分布(包括随机执行密码子位置分配的情况),都是如此。

2.2 密码子上下文偏倚 Codon Context Bias

Gutman和Hatfield(1989)首先注意到原核基因中的密码子对对特定组合表现出另一种显着的偏好。进一步的研究(Irwin等,1995)表明,密码子对的优化会影响翻译延伸步长,但仅在很小的数据集中研究了它们的功能意义。 Coleman等人的最新工作。 (2008),Mueller等。 (2010)和Coleman等。等人(2011年)利用大规模密码子对优化和反优化方法合成了新的编码区,并从头合成了构建体并进行了体内实验,从而提供了密码子对偏倚对翻译效率影响的证据。已经提出了几种用于研究密码子上下文偏倚的数学方法,包括(Fedorov等,2002; Hooper和Berg,2002; Shah等,2002; Boycheva等,2003; Moura等,2005;和2002)。 Coleman等,2008)。本综述中研究的三种基因设计工具提供了控制密码子上下文的功能,尽管没有两个工具共享相同的密码子上下文偏倚度量。

密码子重用(或自相关)是mRNA转录本不同区域中同义密码子的分组。稀有密码子通常在真核和原核基因组中形成簇(Clarke等人,2008),并且密码子重用被认为是tRNA回收的结果,其中单个tRNA被使用,充电并再次用于相同的转录本(Godinic-Mikulcic et al。,2014)。将同义密码子分组的基因通常比不密码子的基因表达更高(Cannarrozzi等,2010)。

作为单一目标的密码子上下文优化具有线性时间复杂度,该复杂度是序列长度的函数。尽管可以在多项式时间上求解,但是用固定的密码子分布来优化密码子对偏倚却相当困难。后一个问题可以简化为旅行商问题(Traveling Salesperson Problem)的一种变体,可以使用具有O(n^65)时限的动态编程算法来解决,其中n是要优化的序列的长度(Mueller等。 ,2010)。结果,所有当前尝试使用密码子来优化合成基因并结合其他目标的工具都利用了元启发法,例如模拟退火或遗传算法。这些试探法不能保证最佳解决方案,但会限制优化过程的运行时间,同时通常会计算合理的近似值。 铁汉 14:25:30

2.3 RNA二级结构 RNA Secondary Structure

在过去的十年中,RNA在分子生物学中的地位发生了巨大变化。已经证明RNA分子起关键调节元件的作用并参与广泛的细胞过程(Dunham等,2004; Carninci等,2005; Kin等,2007)。已知的非编码RNA序列的数量已超过3,000万,分为1400多个家族(Gardner等,2009)。病毒中的重要RNA结构元件(如脊髓灰质炎病毒中的CRE)(Goodfellow等,2000,2003)具有独特的功能,它们的存在或缺失通常对复制或翻译至关重要。此类元件,除了众所周知的RNA分子的功能中心和催化核心外,还将具有许多合成的生物工程用途,并且如果从mRNA编码序列中插入或去除,则可能会是有益的,除了它们的蛋白质编码功能,还可以承担催化活性和其他次要作用。

  • mRNA中的某些二级结构可能会在核糖体试图解开并通过它们翻译时暂时使核糖体失速,从而影响核糖体的转运速率(Buchan和Stansfield,2007)。
  • 致密的二级结构还与真核细胞中RNA分子的较长半衰期相关(Simmonds等,2004; Davis等,2008),这是病毒RNA的重要意义。这些结果表明,通过控制mRNA分子的结构和自由能,可以调节其翻译速率和在细胞中的持久性。

RNA折叠最流行的算法使用凭经验确定的热力学参数(Freier等,1986; Serra和Turner,1995)和动态编程来识别全局最小能量结构。它们以MFOLD(现在为UNAFold)(Zuker,1989; Markham和Zuker,2008)和ViennaRNA(Schuster等,1994)等软件包实现,它们可以作为开源项目获得。这些算法的O(n^3)时间复杂度使它们在评估大量RNA序列,基因变体或采用迭代方法设计定制的合成基因时用途有限。 Cohen and Skiena(2003)对编码给定蛋白质的最稳定和最不稳定的mRNA结构进行了实验(仅应用同义变化),结果表明前者可以在O(n^3)时间内计算–与RNA折叠的复杂度相同–后者是要计算的NP-hard2,意味着没有一种算法可以在合理的时间内为任何实际大小的mRNA生成最佳解决方案。

2.4 核糖体结合位点

细胞中蛋白质合成的速度取决于翻译起始和延伸的速度(Plotkin和Kudla,2010)。翻译起始通常是从mRNA生产蛋白质的关键速率限制步骤,并且很大程度上取决于5’非翻译区和起始密码子附近的弱二级mRNA结构。 Kudla(2009)等人分析了许多随机突变的GFP转录本,他们解释了转录本的前47个核苷酸中mRNA二级结构表达的变化。 Espah Borujeni等。 (2014)通过显示二级结构抑制mRNA加载到30s亚基上,并且该mRNA的部分展开通常在核糖体适应之前发生,提供了直接的证据。

到目前为止,已有三种可用的工具可以对翻译起始进行建模,并帮助设计具有所需翻译起始速率的核糖体结合位点(RBS,ribosomal binding site )序列。这些是RBS计算器(Salis等,2009; Salis,2011),UTR Designer(Sang等,2009; Seo等,2013)和RBS Designer(Na和Lee,2010; Na等, 2010)。最近的一篇评论文章详细分析了这些工具(Reeve et al。,2014),我们不会深入研究这些工具的功能,因为RBS序列的设计可以独立于蛋白质编码序列的其他特征来完成。

2.4 限制位点,隐藏的终止密码子和其他母题规避 Restriction Sites, Hidden Stop Codons, and Other Motif Avoidance

限制性内切酶是在特定基序上切割DNA的实验室试剂。这些基序在DNA序列中的每次出现都称为限制性位点识别位点或限制性位点。在序列中唯一出现的限制性位点可以进行明确的切割,从而可以进行DNA操作技术,例如亚克隆,其中可以在两个不同的独特限制性位点之间插入新序列。在数据库(例如REBASE)中已经鉴定并索引了成千上万种限制酶(Roberts等,2009),并且有数百种可商购。我们研究的大多数合成基因设计工具都提供限制性位点操纵功能,例如消除和独特定位。

在原核生物中,翻译是通过将16S rRNA与mRNA起始密码子上游的Shine-Dalgarno(SD)共有序列杂交而启动的。认为原核基因N末端区域中罕见的密码子偏倚实际上可能是由于在基因的其余部分中避免了SD样序列的结果。如果在基因的其余部分发现了SD共有序列,则杂交实际上可能再次发生并引起翻译暂停(Li等,2012)。因此,尽管可以预期,这种SD驱动的密码子偏向只会对原核细胞中表达的基因有影响,但是避免SD样密码子是密码子偏向的驱动力。

已经提出了影响基因表达的其他几个因素,包括重复的核苷酸,潜在的聚腺苷酸化位点(Pfarr等,1986),隐蔽剪接位点(Bukovac等,2008),核酸酶切割位点(Smolke和Keasling,2002),隐藏的终止密码子(Seligmann和Pollock,2004年)和GC含量(Kudla等人,2006年)。通过提供简单的机制去除不需要的模式,正在审查的几种基因设计工具解决了一个或多个这些因素。特别地,可以通过许多工具提供的标准模式包含/排除机制来掺入和/或消除聚腺苷酸化位点,核酸酶切割位点和隐藏的终止密码子。 GC含量调节通常由提供多目标优化的基因设计工具执行。

限制位点和其他模式放置/消除是一般形式的NP难题(Montes等,2010)。由于大多数模式的长度足以偶然发生稀疏现象,因此在设计基因时通常会针对少数模式,因此合并和消除模式的问题变得微不足道,作为一个单一目标,它具有线性时间复杂度序列长度的函数。当与其他目标(例如,使用密码子使用)一起追求时,模式消除会导致无法获得的解决方案,例如一种氨基酸-一种密码子设计具有不可去除的限制性位点。大多数工具通过优先考虑目标来解决这些难题,而这不利于普遍优化的解决方案。

三 设计工具及比较

评估了11种工具,DNAWorks, Jcat, Synthetic Gene Developer, GeneDesign, Gene Designer 2.0, OPTIMIZER, Visual Gene Developer, Eugene, mRNA Optimizer, Codon Optimization OnLine (COOL), and D-Tailor

具体介绍略。。

四、讨论区

从历史上讲,合成设计的基因已针对宿主密码子偏倚和mRNA二级结构进行了优化,以使基因在宿主中的表达最大化。但是,许多研究表明,这些不一定是影响翻译吞吐量的“主要”力量。目前尚不清楚哪种密码子选择力比其他力量更强,哪些是其他人为因素。此外,依赖于随机突变的实验通常不能为这些问题提供具体答案。随着从头基因合成价格的下降,使用反向遗传学进行假设驱动的研究有望成为设计更多可控实验的首选方法。除了更彻底地了解天然基因设计背后的力量外,合理的基因设计还可以改善异源基因的表达和代谢途径的优化。

我们的研究涉及许多工具,这些工具能够合理地定制蛋白质编码基因,以进行有关表达的实验。每种工具都有其自身的优势和局限性。现在,较新的工具(例如Eugene,COOL和D-Tailor)提供了较旧工具的大多数功能,但通常具有更陡峭的学习曲线以及更复杂的选项和界面。基于Web的应用程序是最易于访问和学习最快的,其中多目标优化工具通常需要作为独立程序来使用,以利用本地工作站的计算能力。没有哪种工具可以完美地满足每个优化任务和用户体验水平,但如今的合成生物学家可以使用大量灵活而功能强大的设计工具,这些工具可以有效地用于设计用于假设检验的下一代合成结构。

基因设计软件领域还有很大的改进空间。除Eugene外,大多数最新工具都牺牲了易用性,以实现多目标优化。当单个优化目标导致困难的计算问题,或者工具正在朝多个目标优化蛋白质编码区域时,当前的工具不能提供解决方案最优性的保证,而大多数工具甚至不能保证解决方案的质量。在这篇综述中,没有工具基于设计决策提供任何形式的可量化表达预测能力,例如密码子和密码子上下文选择或mRNA结构操纵(与“核糖体结合位点”中简要提到的RBS设计工具相反)。这是缺乏广泛的湿实验室实验来确定在不同生物体中表达基因时单个密码子,密码子对等的贡献的直接结果。新的基因设计工具或现有工具的更新版本将受益于其他功能的实现,例如位置权重矩阵和其他基于概率的方法所描述的剪接位点和其他模式掺入/消除,二核苷酸分布操纵以及其他可能影响基因的因素表达。此外,当前的工具还没有明确解决针对重要基因设计目标的优化,而不是翻译率和限制位点的位置,例如mRNA稳定性。为了实现这些目标,D-Tailor等工具采用的模块化体系结构允许经验丰富的Python程序员并入其他优化目标,它们可以提供必要的灵活性,以支持工具进化和基因设计社区的广泛采用。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学