【5.2.6】真核基因组中的近中性和密码子使用偏好的演变

在这里,我表明:

  • 从单细胞原生动物到脊椎动物的真核生物中,基因组和基因组中低表达基因的平均密码子使用偏倚在很大程度上相似。
  • 相反,看家基因和高表达基因中的这种偏差与物种产生时间有显着的反比关系,其变化超过四个数量级。

讨论了这些结果与分子进化的近乎中立理论的相关性。

一、前言

Ohta(1992)提出的近乎中立的进化理论预测,人口中大部分突变的命运是由自然选择和随机遗传漂移共同决定的。根据该理论,这些突变的最终固定取决于有效种群大小(Ne)和选择系数(s)的乘积。因此,具有边际适应性效应的突变的未来在很大程度上取决于人口规模。许多研究,包括重要的研究,例如种群数量对有害突变负荷的影响以及对基因组复杂性的演变,都证实了这一预测(Keightley和Eyre-Walker,2000; Lynch和Conery,2003)。

同样,对导致密码子使用偏倚的同义位置的选择也很弱(Akashi 1995,1997; Llopart and Aguade 2000)。 因此,密码子使用偏好是测试人口规模对弱选择突变的接近中性预期的理想候选者。 但是,这种研究很少,只有很少的数据来自密切相关的果蝇物种(Akashi 1995; Tamura等人2004)。 尽管最近有大量原核基因组研究的报道(Rocha 2004),但以前没有尝试检查从单细胞原生动物到脊椎动物的各种真核生物中密码子使用偏倚的程度及其与种群数量的关系。 造成这种局限的主要原因是,同义密码子选择的选择程度不仅在真核生物的基因组之间,而且在基因组的基因之间也可能有所不同(Li 1997; Ohta 2002)。

为了检验这一点,我收集了一个来自20种真核物种的蛋白质编码序列的数据集,这些物种可能具有广泛的种群规模(图1图例)。

  1. 首先,我检查了整个基因组以及所有这些真核生物共有的管家基因的密码子使用偏向的变化。
  2. 另外,使用基因表达数据,我研究了表达水平非常高和非常低的基因之间的这些模式。
  3. 然后,我检查了密码子使用偏倚的这种变化是否可以在很大程度上解释为种群数量的差异。

由于难以获得有效种群数量的估计值,因此我将物种产生时间作为种群数量的代名词,因为这两个指标众所周知是相关的(Chao和Carr,1993; Ohta,1993; Keightley和Eyre-Walker,2000)。此外,对原核生物的研究表明,选择转化强度的强度本身与生成时间相关(Dong等,1996; Rocha,2004)。

图1 密码子使用偏倚与真核生物产生时间之间的关系。从各种公共数据库中获得了20个真核物种完整或接近完整基因组的蛋白质编码序列。从dbEST( http://www.ncbi.nlm.nih.gov )获得表达序列标签(ESTs)形式的基因表达数据,并使用BLASTN将EST与之前描述的方法匹配到各个基因( Duret和Mouchiroud(2000)。根据大量基因的可用性及其相应的基因表达数据选择物种数据集。还选择了该物种来代表主要的真核生物群,并获得了广泛的世代分布。此外,选择EST而不是使用微阵列数据(或其他表达数据)纯粹是基于该研究中所有物种的可用性。为了估计密码子使用偏倚,使用方法ENC’(Novembre 2002),使用软件ENC prime( http://home.uchicago.edu/~jnovembre/software/software.html )。尽管最近的一份报告指出了ENC’方法的一个缺点,但是当以相对方式(例如相关性)使用密码子偏倚估计值时,这并没有影响(Fuglsang 2006)。基因组中的基因数量,翻译基因,低表达基因(带有1EST),高表达基因(居前1%)和世代(天数)如下:冈比亚按蚊(4877,50,804) ,39,10);蜜蜂(7854,124,911,59,40);拟南芥(26,536,69,2405,70,45);金牛座(18,895,185,1784,48,730);秀丽隐杆线虫(20,043,136,1674,64,3);犬科犬(19,599,191,2961,77,330); Danio rerio(23,482,126,2549,41,90);盘基网柄菌(13,147,102,819,29,0.3);果蝇(13,982,114,1444,63,12);溶脂性变形杆菌(953,128,471,11,0.42);鸡鸡(9518,48,2272,57,150);智人(28,015,226,4515,111,7300);小家鼠(30,079,219,3406,105,65);水稻(23,311,276,3980,121,135);酿酒酵母(6687,258,1219,27,0.1);紫轮虫(17,472,78,1915,63,365);嗜热四膜虫(27,355,120,3655,98,0.13); bol藜(9221、49、1456、36、70);克氏锥虫(15,546,145,2521,41,1);和热带非洲爪蟾(5477,47,371,51,120)。生成时间信息的来源在补充表1中给出。(A)基因组所有基因(空心圆)和翻译所涉及基因的密码子使用偏倚(ENC’)的相关性(主要由核糖体基因,tRNA合成酶,起始和延伸因子(实心圆)随产生时间的变化而变化。 x轴以对数刻度显示。基因组的Spearman系数ρ= −0.15,P = 0.52,翻译基因的Spearman系数ρ= 0.77,P = 0.0008。 (B)针对具有低(空心圆)和高(实心圆)表达水平的基因(不包括翻译基因)估计的ENC’与世代时间的关系。低表达基因的Spearman系数ρ= -0.08,P = 0.74,高表达基因的Spearman系数ρ= 0.74,P = 0.0014。 (C)ΔENC’与物种产生时间之间的对数-对数关系。在此,ΔENC′=(ENC′L-ENC′TH)/ ENC′L,其中ENC′TH是翻译+高表达基因的平均密码子偏倚,而ENC′L是低表达基因的平均密码子偏倚。所有物种的Spearman系数ρ= −0.87,P = 0.0002,脊椎动物子集的Spearman系数ρ= −0.89,P = 0.029。显示了最拟合的线性回归线。

使用改良的有效密码子数(ENC’)方法估计了密码子使用偏倚,该方法解释了由正向和反向突变的不相等比率引起的碱基组成差异(Novembre 2002)。使用基因组的所有基因估计基因组平均值ENC’。还使用涉及翻译的基因来计算平均ENC’,所述基因主要由核糖体基因,tRNA合成酶,起始和延伸因子组成。选择这些基因是由于它们在所有真核生物中的基本功能和普遍存在以及它们在所有组织中的表达。基因组ENC’在整个真核生物中最相似,并且与物种产生时间没有任何显着关系(ρ= -0.15,P = 0.52)(图1A)。相反,翻译基因与生成时间具有极好的对应性(ρ= 0.77,P = 0.0008)。由于已知在同义位点的选择也受基因表达水平的调节,因此对表达水平最高的基因(不包括翻译基因的基因的前1%)和表达水平最低的基因计算平均ENC’等级(1 EST)。图1中的关系A和B在质量上相似。基因组的平均ENC与低表达的基因之间的相似性表明,基因组的大多数基因具有较低的密码子使用偏倚。另一方面,翻译基因和高表达基因的平均ENC’值表明这两组基因的选择幅度基本相同。

由于基因组的高ENC’值或低表达的基因提示密码子使用偏向最小,因此可以用作基线,以量化翻译和高度表达的基因中密码子使用偏向的程度。因此,使用公式ΔENC’=(ENC’L-ENC’TH)/ ENC’L(Rocha 2004)估算偏倚的差异,其中ENC’TH是翻译+高表达基因和ENC的平均密码子偏倚’L是低表达基因的L(使用基因组ENC’代替低表达基因的L也产生相似的结果)。图1C显示了ΔENC’和生成时间之间的高度显着负相关(ρ= -0.87,P = 0.0002)。当仅考虑脊椎动物时,也是如此(ρ= −0.89,P = 0.029)。脊椎动物(无脊椎动物+植物)和原生生物的平均ΔENC’分别为0.038、0.12和0.19,这表明(无脊椎动物+植物)和原生生物的相对估计值分别比脊椎动物高大约三倍和五倍。 。

为了检查该结果的系统发育非独立性,使用PHYLIP的CONTRAST软件包(Felsenstein 2005)进行了独立性对比分析(Felsenstein 1985)。所有20个物种共有的32种直系同源蛋白质(通过双向BLAST搜索获得)的串联比对用于构建邻居连接树(请参见补充图1),并将分支长度用于对比分析。我还使用了广泛接受的真核树拓扑结构(请参见补充图2),并使用CAIC软件进行了此分析(Purvis和Rambaut 1995)。两次分析的结果均表明,世代时间与ΔENC’的标准化对比之间存在高度显着的关系(r = -0.72,P <0.0005)(参见补充表2)。此外,在这些对比和它们的方差之间没有观察到显着的关系(r = 0.23,P> 0.35)(见补充表2)(Garland等,1992; Purvis和Rambaut,1995)。这些结果表明,本研究中观察到的生成时间与密码子使用偏倚之​​间的相关性是独立的,不受所用物种的系统发育关系的影响。

翻译/高表达基因的ΔENC’与世代时间之间的负相关关系意味着选择系数远高于中性突变的固定概率(s> 1 / 2Ne),但很小,可以被调制根据人口规模来确定(Ohta 1992)。该模式可以根据与generation时间相关的变量以两种方式解释。如果种群大小与世代时间相关,则可以通过假设所有物种中s的相似性来单独解释种群大小的差异。这似乎不太可能,因为对于几乎中性的突变,绝对值| Nes |密码子使用偏好必须介于1到2之间(Ohta 2002),因此中间密码子使用偏好(而不是零或完全密码子使用偏好)只能在这个小窗口内变化。由于本研究中所用物种的种群大小变化了几个数量级(约108个单细胞真核生物和104个人类真核生物),因此观察到的ΔENC’相对于物种产生时间的宽范围无法解释单独的Ne的差异。通过假设一个常数s。另一种可能的可能性是,翻译效率的选择强度也与生成时间相关,因此此处的生成时间似乎代表Nes而不是Ne。例如,轻度有害突变的影响可能会延迟翻译过程,这将极大地影响具有较短生成时间的物种,因为突变体将很快被野生型所取代。同样,稍微有益的突变体将迅速在这些物种的种群中传播。但是,这种突变的固定(或消除)在具有较长世代的物种中效果较差。对原核生物中生长速率与密码子使用偏倚之​​间关系的研究支持了这一预测(Dong等,1996; Rocha,2004)。

最近对哺乳动物的研究表明,对同义位点的选择是由翻译选择以外的因素引起的,例如mRNA稳定性,选择性剪接和微小RNA结合或外显子增强子的存在(Parmley和Hurst 2007),这可能低估了ENC的绝对值 对于哺乳动物。 然而,由于这些因素影响低表达基因以及翻译和高表达基因,因此相对比ΔENC’由于其作用的抵消而不受影响。 此外,其中一些研究还表明,只有极少数的同义词位置受这些因素的影响,因为这些位点的差异减少幅度很小(1-8%)(Hurst 2006; Parmley等人2006)。

这项研究的结果揭示了真核生物中密码子使用偏倚的相对大小受其种群大小的调节,并解释了这种偏倚在脊椎动物等物种中的减少。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学