【5.2.1.8】人类转录组中 RNA 二级结构的景观和变异

parallel analysis of RNA structure2 (PARS) 。由 RNase V1 或 S1 核酸酶产生的 RNA 片段的深度测序(扩展数据图 1a)分别确定了人类转录组中的双链或单链区域。准确地捕获了已知 RSS 的结构,并揭示了 6,524 个转录本的 RSS (RNA secondary structures )。

  1. 元基因分析表明,平均而言,编码区 (CDS) 由靠近翻译起始位点和终止密码子的可聚焦区域划分。
  2. 与酵母相反,人类 CDS 比非翻译区 (UTR) 更单链(图 1d ),这与其他后生动物3的先前趋势相似。CDS 中存在三核苷酸结构周期性,UTR 中不存在,与先前的计算预测一致 .
  3. 复性和天然 mRNA 都显示出相似的 RSS 特征,这表明 RNA 序列是 RSS 的强决定因素。然而,RNA 结构也偏离序列内容。特别是,人类 3' UTR 具有低 GC 含量但高度结构化(图 1d)。
  4. 我们还确定了天然脱蛋白和复性结构图谱之间的 583 个(5.7%)始终不同的区域,为体内RNA 结构调节提供了候选位点(补充表 1)。与 mRNA 相比,高度结构化的 RNA 具有更少的结构差异(扩展数据图 3e),表明功能构象的进化选择更强。我们注意到 3.7% 的碱基(位于 9.7% 的转录本中)具有强 V1 和 S1 读数,表明存在多个 mRNA 构象。

我们在转录后调控位点检测到 RSS 的独特特征。RNA 结构被认为在调节前信使 RNA 5的外显子和内含子上的不同剪接信号方面很重要。我们在复性和天然脱蛋白转录物的外显子 - 外显子连接处观察到独特的不对称 RSS 特征,这不能简单地由 GC 含量解释。5' 外显子末端的末端 AG 二核苷酸往往更容易接近,而 3' 外显子的第一个核苷酸更结构化(图 2a和扩展数据图 3f)。因此,特定的 RSS 签名可能有助于 RNA 剪接。

二 、方法

2.2 PARS-分数计算

  1. 在将原始读数映射到转录组后,我们计算了在 RNA 的每个碱基上启动的双链读数和单链读数的数量。
  2. 然后通过测序深度对每个测序样本的双链 (V1) 和单链读数 (S1) 的数量进行标准化。
  3. 对于总共有N个碱基的转录本,其第i个碱基的 PARS 分数由以下公式定义,其中 V1 和 S1 分别是标准化的 V1 和 S1 分数。
  4. 添加了一个小数字 5 以减少对覆盖率低的碱基结构信号的潜在高估:

为了识别由 SNV 引起的结构变化,我们对标准化的 V1 和 S1 分数应用了 5 个碱基的平均值来平滑附近碱基的结构信号。因此,PARS 分数定义为:

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn