【1.4.1.2】dark proteome 暗蛋白质组-非规范开放阅读框架的翻译

February 04, 2023 protein 阅读量：次

越来越多的证据表明，人类基因组的蛋白质编码潜力被低估了。探测翻译组和蛋白质组技术的最新进展突出了非规范开放阅读框（ORF），它们

i. 控制翻译调节， 2. 产生功能性微生物蛋白(microproteins) 3. 编码规范编码序列的蛋白质变体(encode protein variants of the canonical coding sequence)

文献中存在着越来越多的非规范 ORF 编码蛋白质的例子，这些蛋白质具有重要的功能和生理作用，但“组学”数据库中存在数千个未经验证且功能未表征的假定 ORF。

基于组学的技术彻底改变了我们对基因组编码潜力的理解。特别是，这些研究揭示了整个基因组中广泛存在的未注释的开放阅读框（ORF），并且这些区域有可能编码新的功能（微）蛋白质和/或发挥调节作用。然而，尽管它们的基因组普遍存在，但这些非规范 ORF 的功能特征相对较少，部分原因可能是由于更广泛的科学界对它们的认识不足。少数经过详细研究的研究已经证明了它们在关键和不同的生物过程中的重要性。

20 年前，当研究人员首次公布人类基因组序列时，他们还估计了我们的细胞中有多少种不同的蛋白质。这些参与人类基因组计划的科学家寻找每一个表示蛋白质起始和结束的 DNA 片段，并统计了 20,000 个编码蛋白质的基因，约占我们 DNA 的 1%。

虽然其中一些蛋白质很容易被检测、结晶和表征，但其他蛋白质则需要更长的时间才能检测到。不同的团队一直在努力填补空白。

2014年，两个研究小组，一个由约翰·霍普金斯大学医学院的 Akhilesh Pandey 领导，另一个由慕尼黑工业大学的 Bernhard Küster 领导，在分析了不同的人体组织和体液后，分别发表了人类蛋白质组草图。通过质谱分析。两个团队检测到了预计存在的 80-90% 的蛋白质。第三项努力是人类蛋白质组计划（HPP），该计划由来自世界各地的研究人员参与，也寻找被认为是在人类基因组中编码的蛋白质的证据。 HPP 表示，有证据表明其中90% 以上的蛋白质存在。

这意味着，在我们 DNA 中被认为编码蛋白质的 20,000 个离散片段中，研究人员已经掌握了超过 18,000 个片段的证据。剩下的是暗蛋白质组的第一部分：未被发现的部分。

奥弗洛尔说，出于多种原因，科学家们还没有检测到这些蛋白质。

其一，细胞可能不表达该蛋白质。
或者也许细胞确实表达它，但只是少量或在特定时间表达。
分析技术只能提供给定时间组织或体液内起作用的蛋白质的快照。如果分析样品时蛋白质不存在，科学家们就会一直错过它。解决这个问题的一种方法是在科学家通常不取样的组织中寻找蛋白质，例如嗅觉细胞和精子细胞

胞从 DNA 转录 RNA 后，细胞机器可以将该 RNA 剪接成信使 RNA (mRNA)，后者将外显子（翻译成蛋白质的核酸片段）按不同的顺序排列，并完全跳过一些外显子。这种剪接产生了不同的蛋白质，这些蛋白质均由同一基因编码，但可以具有不同的行为和作用。曲线表示 α 螺旋，箭头表示 β 折叠（底部）。

为了使蛋白质图像更加复杂，细胞内的不同机器可以对蛋白质进行化学修饰。这些所谓的翻译后修饰可以是小的添加，如甲基或乙酰基，也可以是较大的添加，如糖分子。例如，在急性胰腺炎中，一种称为胱硫醚β-合酶的酶的硝化降低了其活性，从而导致关键生物分子迅速减少。蛋白质合成后修饰的另一种方式是蛋白水解加工，其中酶将蛋白质剪成较短的分子以发挥其他作用。例如，较长的蛋白质被切割成胰岛素激素的生物活性形式。

总之，所有这些蛋白质变异可能会产生数百万种所谓的蛋白质形式。

参考资料

https://pubmed.ncbi.nlm.nih.gov/34844857/
The dark proteome: translation from noncanonical open reading frames
https://cen.acs.org/biological-chemistry/proteomics/proteins-remain-hidden-dark-proteome/100/i3
https://www.nature.com/articles/s41577-023-00937-y

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn