【9.6.2】mRNA UTR(Untranslated regions)

基因表达在转录后水平受到精细调控。控制其翻译、降解和定位的 mRNA 非翻译区的特征包括茎环结构、上游起始密码子和开放阅读框、内部核糖体进入位点和各种由 RNA 结合蛋白结合的顺式作用元件。

一、前言

最近对人类基因组的分析 [ 1 , 2 ] 和有关其他高等真核生物基因组的可用数据表明,只有一小部分遗传物质(约 1.5%)编码蛋白质。事实上,大多数基因组 DNA 都参与基因表达的调节,它可以在转录水平上发挥作用,控制基因是否被转录以及转录到什么程度,或者在转录后水平,控制转录RNA 分子的命运,包括它们的稳定性、它们的翻译效率和它们的亚细胞定位。本文将回顾mRNA非翻译区的结构、功能和机制。

转录调控(Transcriptional control )由转录因子、RNA 聚合酶和一系列顺式- 位于 DNA 中的作用元件,例如启动子、增强子、沉默子和基因座控制元件,以模块化结构组织并调节前体 mRNA 分子的产生,这些分子在成为功能性 mRNA 之前经过几个加工步骤:

  • 去除内含子
  • 在第一个外显子的 5’ 端添加一个 7-甲基鸟苷酸 (m7G) 帽结构
  • 并在 3’ 端添加一段 100-250 个腺嘌呤残基(poly(A) 尾)最后一个外显子的末端,它本身是由初级转录物的核酸内切裂解产生的。

有时,mRNA 的序列也会在称为 mRNA 编辑(mRNA editing)的过程中发生改变,由此产生的成熟 RNA 的编码序列与基因组中的相应序列不同。由此产生的成熟 mRNA,在真核生物中,具有由 5’ 非翻译区 (5’ UTR),一个由三联密码子组成的编码区,每个密码子编码一个氨基酸和一个 3’ 非翻译区 (3’ UTR)。数字图 1显示了 mRNA 的这些和其他特征。

众所周知,UTR 在基因表达的转录后调控中起着至关重要的作用,包括:

  1. 调节 mRNA 转运出细胞核和翻译效率 [ 3 ]
  2. 亚细胞定位 [ 4 ]
  3. 稳定性 [ 5 ]。

本文主要关注这三个功能,但 UTR 也可能发挥其他作用,例如在编码硒蛋白的 mRNA 的 UGA 密码子上特异性掺入修饰的氨基酸硒代半胱氨酸,该过程由 3’ UTR [ 6 ]中保守的茎环结构介导。 。改变 UTR 的突变可导致严重病理,强调了 UTR 在调节基因表达方面的重要性 [ 7 ]。

UTR 的调节通过多种方式进行调节:

  • 位于 5’ UTR 和 3’ UTR 中的核苷酸模式或基序可以与特定的 RNA 结合蛋白相互作用。然而,与 DNA 介导的调节信号不同,其活性主要由其一级结构介导,RNA 水平的调节基序的生物活性依赖于一级结构和二级结构的组合。
  • 位于 UTR 中的序列元件与特定互补非编码 RNA 之间的相互作用也已被证明起着关键的调节作用 [ 8]]。
  • 最后,还有一些对 RNA 水平调节很重要的重复元件的例子。例如,CUG 结合蛋白可能会与特定 mRNA(例如编码转录因子 C/EBPβ 的 mRNA)的 5’ UTR 中的 CUG 重复序列结合,从而影响其翻译效率 [ 9 ]。

许多参与基因表达的细胞质转录后调控的 RNA 结合蛋白也参与了多种调控过程——例如可选择的前 mRNA 剪接或 3’ 端加工——在细胞核内,它们作为异质核糖核蛋白 (hnRNPs,heterogeneous nuclear ribonucleoproteins) [ 10 ]。细胞核和细胞质中转录后事件之间的这种功能性联系可以解释实验观察结果,即 mRNA 的核历史可以影响其细胞质命运

二、非翻译区的结构特征

各种完整和部分基因组序列的比较揭示了 UTR 结构的一些保守方面(见表1)。5’ UTRs 的平均长度在不同的分类学类别中大致恒定,范围在 100 到 200 个核苷酸之间,而 3’ UTRs 的平均长度变化更大,范围从植物和真菌中的约 200 个核苷酸到人类和其他脊椎动物中的 800 个核苷酸。令人惊讶的是,一个物种内 5’ 和 3’ UTR 的长度差异很大,从十几个核苷酸到几千个不等 [ 12 ]。事实上,使用哺乳动物体外系统已经表明,即使是单个核苷酸也足以启动翻译 [ 13 ]。

与 mRNA 的 UTR 对应的基因组区域可能包含内含子,在 5’ UTR 中比在 3’ UTR 中更频繁。后生动物中大约 30% 的基因具有完全未翻译的 5’ 外显子,而尽管 3’ UTR 更长,但它们的内含子频率要低得多,根据分类群在 1-11% 的范围内(图2a)。通过使用不同的转录起始位点、聚腺苷酸化位点或剪接供体和/或受体位点,可以形成替代的 UTR。这些已被证明随组织、发育阶段或疾病状态而不同,并且可以显着影响基因表达的模式 [ 14 ]。

5’ 和 3’ UTR 序列的碱基组成也不同;

  • 5’ UTR 序列的 G+C 含量大于 3’ UTR 序列的 G+C 含量。这种差异在来自温血脊椎动物的 mRNA 中更为显着,其 G+C 含量对于 5’ UTRs 约为 60%,对于 3’ UTRs 约为 45% [ 15 ]。
  • 在 5’ 或 3’ UTR 的 G+C 含量与相应编码序列的第三个密码子位置的 G+C 含量之间也存在有趣的相关性,并且在 5’ 和 3’ UTR 的 G+C 含量及其长度之间观察到显着的负相关 [ 16]。
  • 特别是,已经发现位于染色体的大 GC 丰富区域(重等位点)的基因具有比位于 GC 贫乏等位点的基因更短的 5’ UTR 和 3’ UTR。编码序列和内含子也显示出类似的相关性 [ 17 ]。

最后,还已知真核 mRNA 在非翻译区包含几种类型的重复,包括短穿插元件 (SINE,short interpersed elements),如 Alu 元件、长穿插元件 (LINE,long interspersed elements)、小卫星和微卫星。在人类 mRNA 中,大约 12% 的 5’ UTR 和 36% 的 3’ UTR 中发现重复。在其他分类群中观察到较低的重复丰度,包括其他哺乳动物。

三、控制翻译效率

mRNA 的翻译效率可能会有所不同,因此所产生的蛋白质数量会受到调节。这是基因调控的一个重要水平;实际上,mRNA 和蛋白质丰度之间的相关性仅在分泌蛋白质中可见,而对于细胞内蛋白质,不同 mRNA 的不同翻译速率消除了这种相关性 [ 18 ]。整个 mRNA 的特征都会影响翻译效率。

5’ UTR 的结构特征在 mRNA 翻译的控制中起主要作用。编码涉及发育过程的蛋白质的信使 RNA,例如生长因子、转录因子或原癌基因,所有这些都需要强烈而精细地调节,通常具有比平均更长的 5’ UTR [ 19 ],带有上游起始密码子或开放阅读框 (ORF) 和阻碍翻译效率的稳定二级结构(表2)。5’ UTR 中的其他特定基序和二级结构也可以调节翻译效率。

在正常情况下,在 mRNA 从细胞核转运到细胞质后,eIF4F 蛋白复合物在帽处组装。该复合物由三个亚基组成:

  • eIF4E,帽结合蛋白;
  • eIF4A,具有RNA解旋酶活性;
  • eIF4G,它与各种其他蛋白质相互作用,包括聚腺苷酸结合蛋白。

eIF4A 的 ATP 依赖性解旋酶活性受到 RNA 结合蛋白 eIF4B 的刺激,可以解开 mRNA 中的任何二级结构,从而为小的 (40S) 核糖体亚基创造一个“着陆平台”[ 20]。当核糖体或翻译因子的浓度受到限制时,poly(A) 尾部可以与 5’ 帽配合,通过可与 eIF4F 复合物物理相互作用的聚腺苷酸结合蛋白的干预来增强翻译起始 [ 21 ]。

在大多数真核 mRNA 中,人们认为翻译始于 40S 核糖体亚基遇到的第一个 AUG 密码子,因为它从 5’ m7G 帽沿 mRNA 移动或扫描 3’。AUG 起始密码子两侧的序列不是随机的,而是符合共有序列;

  • 在哺乳动物中,该序列是 GCCRCCaugG,最保守的核苷酸是嘌呤 ®,通常是 A,位于 AUG 起始密码子的 -3 位和 +4 位的鸟嘌呤。
  • 对-3 位A 和+4 位G 的强烈偏好在其他动物、植物和真菌中也是保守的。
  • 第一个 AUG 密码子的序列上下文,特别是位于非翻译区的部分,可以调节其被识别为翻译起始密码子的效率。

值得注意的是,很大一部分 5’ UTR 包含上游AUG,根据生物体的不同,从 15% 到近 50% 不等(图2b),这表明核糖体起始位点选择扫描模型预测的“第一个 AUG 规则”在很多情况下是不服从的。这意味着 40S 核糖体亚基有时可以绕过最上游的 AUG 密码子,可能是因为它的序列背景使其成为较差的起始密码子,以在更远的 AUG 处启动翻译。通过这种称为“渗漏扫描”(leaky scanning)的机制,可以从同一 mRNA 中获得多种不同的蛋白质 [ 22]。此外,已经计算出上游 AUG 的存在与长 5’ UTR 和通常使用的 AUG 的“弱”起始密码子上下文相关,而具有最佳起始密码子上下文的转录本具有短 5’没有上游 AUG 的 UTR [ 23 ],表明上游 AUG 可能在保持基因的基础翻译水平低方面发挥作用。

如果在上游 AUG 之后和主起始密码子之前发现框内终止密码子,则会创建一个上游 ORF。在上游 ORF 翻译和大 (60S) 核糖体亚基脱离后,核糖体小亚基具有多种替代命运,影响翻译效率和 mRNA 稳定性。40S 亚基可能会保留在 mRNA 上,恢复扫描,并在下游 AUG 密码子处重新启动翻译,或者它可能会离开 mRNA,从而削弱主要 ORF 的翻译。核糖体重新启动的能力在真核生物中受到终止密码子上下文 [ 24 ] 和上游 ORF 长度的限制;如果上游 ORF 长于大约 30 个密码子 [ 25],核糖体不能重新启动。已知该过程会下调酵母转录因子 GCN4 和 YAP1 的 mRNA 翻译,这些转录因子包含上游 ORF [ 26 ]。

5’ UTR 中的二级结构在翻译调控中也很重要。实验数据表明,直接涉及 AUG 起始密码子的中等稳定二级结构(自由能 (ΔG) 变化高于 -30 kcal/mol)不会阻止 40S 核糖体亚基的迁移;只有当形成非常稳定的结构(ΔG 低于 -50 kcal/mol)时,才会观察到翻译效率的显着下降。具有这种非常稳定的二级结构的 UTR 序列报告在表3 中。这些结构的抑制作用可以通过 eIF4A 水平的增加来克服,eIF4A 是 eIF4F 复合物的亚基,与 eIF4B 和 eIF4H 共同促进 RNA 二级结构的解旋 [ 27 ]。

在小核糖核酸病毒中首次发现了一种独立于 5’ 帽的翻译起始替代机制 [ 28 ]:5’ UTR 中的序列元件充当内部核糖体进入位点 (IRES, the iron-responsive element)。已在许多编码调节蛋白的细胞 mRNA 中发现了 IRES 元件,例如 c-Myc 等原癌基因产物、同源域蛋白、生长因子(如成纤维细胞生长因子 FGF-2)及其受体。Kozak [ 29]对 IRES 的概念进行了非常严格的综述,他最初定义了起始密码子上下文的重要性。对已知细胞 IRES 的比较分析导致鉴定了许多 mRNA 共有的共同结构基序,包括那些编码免疫球蛋白重链结合蛋白 BiP 和 FGF2 的:AUG 起始密码子上游的 Y 形茎环 [ 30 ] (见表4和图2b)。最近发现,与小核糖体 RNA 互补的短序列基序也可以作为 IRES [ 31 ]。

作为反式作用 RNA 结合蛋白靶标的序列元件也可以调节翻译。例如,位于编码参与铁代谢的蛋白质(铁蛋白、5-氨基乙酰丙酸合酶和乌头酸酶)的 mRNA 的 5’ UTR 中的铁反应元件 (IRE) 可能通过铁调节蛋白的铁依赖性结合抑制翻译。阻碍小核糖体亚基在翻译起始中的正常扫描过程。此外,迄今为止分析的大多数编码核糖体蛋白和翻译延伸因子的脊椎动物 mRNA 包含一个 5’ 末端寡嘧啶束 (TOP),由紧邻 m7G 帽的 5-15 个嘧啶组成。在生长停滞、分化、发育和某些药物治疗期间,该tract 是协调翻译抑制所必需的 [ 32 ]。

四、mRNA稳定性的调节

mRNA 的周转是基因表达转录后调控的另一个关键步骤,因为 mRNA 丰度的变化可能通过影响相应蛋白质的丰度来改变特定基因的表达。已经提出了几种机制来描述 mRNA 降解是如何发生的:

  • 可以通过缩短或去除 3’ 末端的 poly(A) 尾和
  • 或去除 5’ 末端的 m7G 帽来促进衰变 [ 33 ] 。

mRNA 的转换主要受顺式调控- 位于 3’ UTR 中的作用元件,例如富含 AU 的元件 (ARE),可响应各种特定的细胞内和细胞外信号促进 mRNA 衰变。ARE 已通过实验分为三类:

  • I 类和 II 类 ARE 的特征在于存在多个拷贝的五核苷酸 AUUUA
  • 而 III 类 ARE 中不存在这种 AUUUA [ 34]]。

  • I 类 ARE 通过以相同速率降解聚 (A) 尾的所有部分来控制 mRNA 的细胞质去腺苷酸化,生成具有 30-60 个核苷酸的聚 (A) 尾的中间体,然后完全降解。这些元件主要存在于编码核转录因子的 mRNA 中,例如 c-Fos 和 c-Myc(“快速反应”基因的产物)以及一些细胞因子的 mRNA,例如白细胞介素 4 和 6。在富含 U 的区域旁边有更多的五核苷酸 AUUUA 拷贝是 I 类 ARE 的结构特征。

  • II 类 ARE 介导异步细胞质去腺苷酸化,换句话说,poly(A) 尾在不同转录物中以不同速率降解,生成没有 poly(A) 尾的 mRNA。包含该信号的 mRNA 包括编码细胞因子 GM-CSF、白细胞介素 2、肿瘤坏死因子 α (TNF-α) 和干扰素-α 的 mRNA。II 类 ARE 的特征是 AUUUA 五聚体的串联重复,并且通常在这些重复的上游发现富含 AU 的区域。

  • 包含 III 类 ARE 的 mRNA,例如编码 c-Jun 的 mRNA,不包含五核苷酸 AUUUA,但只有一个富含 U 的片段;它们显示出类似于含有 I 类 ARE 的 mRNA 的降解动力学。

mRNA 的降解也可以在核酸内切酶活性后发生,其机制独立于去腺苷酸化和脱帽。这种机制已在编码转铁蛋白受体的 mRNA 中观察到,转铁蛋白受体是一种介导细胞内铁转移的蛋白质。该 mRNA 的降解途径涉及 3’ UTR 区域的核酸内切裂解,该裂解由 IRE 结构的识别介导,并受细胞内铁水平的调节 [ 35 ]。

上游起始密码子和 ORF 也可能通过无义介导的 mRNA 衰减 (NMD, nonsense-mediated mRNA decay) 途径在 mRNA 衰减中起作用。触发 NMD 的信号是一个无义密码子,后跟一个剪接点(两个移除的外显子之间的连接点)[ 36 ];剪接点的存在可能是区分正常终止密码子与过早终止密码子的方式。事实上,正常的终止密码子和 3’ UTR 通常位于序列的最后一个外显子中,因此后面没有剪接点。识别外显子连接是因为标记蛋白与细胞核中含有内含子的转录物结合,在剪接事件完成后仍与外显子连接结合,并与加工后的 mRNA 一起转移到细胞质 [ 11]]。翻译机制通常会取代标记蛋白,防止野生型 mRNA 的降解。但是,如果核糖体遇到一个过早的终止密码子或由于上游 ORF 的存在,它会解体并且外显子连接处的标记蛋白将异常的 mRNA 引导至 NMD [ 37 ]。在酿酒酵母(使用下游外显子元件 DSE 作为触发 NMD 的第二个信号)中,含有功能活性上游 ORF 的 mRNA,如编码 GCN4 或 YAP1 的那些,不会通过 NMD 途径降解,因为它们含有 mRNA 特异性上游 ORF 和编码序列之间的稳定序列元件,通过与结合 RNA 的泛素连接酶 Pub1 相互作用来阻止 NMD 途径的激活[38 ]。

上游 ORF 还可以通过 NMD 独立机制调节 mRNA 的稳定性。S. cerevisiae基因YAP2的 5’ UTR包含两个上游 ORF,可抑制核糖体扫描并促进 mRNA 衰变 [ 26 ]。不稳定效应依赖于终止密码子上下文,它调节翻译效率和 mRNA 稳定性。表5报告了一些基因,其中上游 ORF 已被证明影响基因表达。

几项研究提供的证据表明,许多 hnRNP 不仅在细胞核中起作用,而且还参与控制细胞质中 mRNA 的命运 [ 10 ],并且可以调节翻译、mRNA 稳定性和细胞质定位 [ 37 ]。一个例子是淀粉样前体蛋白(APP)的调节;增加APP水平是阿尔茨海默病发展的重要促成因素。APP mRNA 的稳定性取决于位于 3’ UTR 的高度保守的 29 个核苷酸元件,该元件与几种细胞质 RNA 结合蛋白相互作用 [ 39]]。非常有趣的是,虽然其中一些蛋白质是核仁蛋白的片段(已知它在细胞核和细胞质之间穿梭),但 39 kDa 和 38 kDa 的两种蛋白质是 hnRNP C 的亚基,在本研究中首次出现在细胞质中[ 40 ]。

五、mRNA亚细胞定位的控制

UTR 在转录后水平的基因表达空间控制中具有重要作用,这在发育过程中尤为重要。一些 mRNA 的不对称定位导致编码蛋白的细胞分布不对称;这种情况显然比其他可能的蛋白质定位机制更有效,因为同一个 mRNA 分子可以作为多轮翻译的模板。在许多情况下,mRNA 与翻译装置的蛋白质一起被定位为核糖核蛋白复合物,从而确保有效的定位翻译。

mRNA 的不对称分布有三种主要机制:

  • 主动定向运输( active directed transport),需要功能性细胞骨架(requiring a functional cytoskeleton)与目标 mRNA 相互作用的特定运动蛋白;
  • 转录本的局部稳定化(local stabilization of transcripts);
  • mRNA 的扩散,然后是其局部截留( diffusion of the mRNA followed by its local entrapment)。

髓鞘碱性蛋白 (MBP) mRNA 通过主动转运机制定位于中枢神经系统少突胶质细胞产生的髓鞘中。一个 21 个核苷酸的序列,称为 RNA 转运信号,以及一个额外的元件,即 RNA 定位区,均位于 MBP mRNA 的 3’ UTR,是其在小鼠中的转运和定位所必需的 [ 41 ]。许多局部稳定的例子来自果蝇早期发育:编码 RNA 结合蛋白 Nanos 或热休克蛋白 Hsp83 的转录物在胚胎中除后极质外的任何地方都被降解。位于这些 mRNA 的 3’ UTR 中的不同顺式作用元件介导整个胚胎的降解和极点的稳定 [ 5 ]。Bicoid mRNA 在果蝇中的定位很好地代表了扩散和截留机制。调节转录物锚定的元件(该过程的关键步骤)并未全部表征,但所涉及的一种蛋白质是 Staufen,一种双链 RNA 结合蛋白,对于Bicoid的固定至关重要卵子前极中的 mRNA [ 42 ]。

在所有这些情况下,mRNA 的亚细胞定位是由位于 3’ UTR 中的顺式作用元件介导的,但也有 5’ UTR 甚至编码序列中元件的例子;这些被称为 mRNA 邮政编码( zip codes),并与邮政编码结合蛋白(如 Staufen)相互作用。邮政编码的一级或二级结构没有任何明显的相似性;它们可以具有复杂的二级或三级结构,如Bicoid定位元件,其中一级序列不如整体结构重要 [ 43 ],或者它们可以是短的、确定的核苷酸序列 [ 44 ],有时是重复的元件(例如在非洲爪蟾本地化转录本Vg1的情况下[ 45])。

总之,mRNA 的非翻译区在基因调控的许多方面具有关键作用。有关 UTR 结构和功能的更多信息,包括其中的顺式作用元件(表6)[ 46 ],可以在我们的 UTR 主页 [ 47 ] 以及 UTRdb 和 UTRsite 数据库中找到,这些数据库可以下载从我们的 ftp 站点 [ 48 ] 或从我们的网站 [ 50 ] 或欧洲生物信息学研究所 [ 51 ]使用 SRS [ 49 ] 访问。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学