【5.1.2】密码子使用偏性

一、背景介绍

DNA通过转录,控制着mRNA的合成,而mRNA是蛋白质合成的模板,它决定了蛋白质的序列结构、功能等信息。把mRNA看作一种语言,它由4种不同碱基的核苷酸组成(A、U、C、G),蛋白质序列则是完全不同的另外一种语言,它由20种基本氨基酸组成。在生命体内就有一种机制,它通过识别这4种碱基的不同排列组合来翻译成对应的氨基酸,因此在mRNA中的碱基顺序称为遗传密码(Genetic Code),mRNA中每三个核苷酸组成的三联体称为一个密码子(Codon),遗传密码子表见下图。

64组密码子(444)中,有三组不编码(UAG、UAA和UGA),它们是终止密码子,还有一组AUG既是甲硫氨酸(Met)的密码子,又是多肽合成的起始密码子。另外,在很多原核生物中GUG和UUG也为起始密码子。 由于密码子具有简并性的特征,既一种氨基酸对应不同的密码子,因此不同氨基酸对应的不同密码子的使用频率是不一定相同的,我们把氨基酸对应的各自密码子使用频次的不同叫做密码子使用偏性。不同种属生物的氨基酸偏爱的密码子是不一样的,甚至同一物种内,不同功能和不同保守程度的基因,它们的密码子使用偏性也是不一样的。

例如,上图的工作中(López, J. L,2019),作者使用了Rhizobiales目中不同物种的细菌基因组,找出不同保守程度的core gene(不同颜色的原点表示),分析不同物种以及不同基因的密码子偏性。图中展示的是对这些不同gene set的密码子偏性的主成分分析结果,可以看出,确实存在的很大的差异,这些这些往往和物种的进化相关。

同样以这份工作为例,细菌相对于真核生物来说,可以较高频率的与外界发生遗传信息交流,比如通过水平基因转移(HGT)从环境中直接获取到其他物种的基因,在细菌内部也十分容易发生基因组的大片段重组,这样就可以把外界吸收来的有利基因慢慢的整合到核心基因组中去。因此通过对基因中密码子的使用偏好进行分析能帮助判断这些基因的来源和进化历程。另外密码子使用频率也和基因的表达量相关,如果基因使用了和tRNA更相似的密码子,它就可以减少与对应的tRNA分子匹配的时间,使具有较高表达量,那么这个基因可能对维持物种的生命活动是十分重要的。

二、衡量指标介绍

目前,已经提出了很多数学量来对密码子的使用偏性进行量化,有些是对整个基因组内单个密码子的分析,有些则是从一个基因的角度来衡量其密码子偏好性。下面对常用的几个指标做简要的介绍:

1. 密码子使用频次(Observed number of occurrences of codon ‘i’, Obsi)

对于某一特定的密码子i,其在基因中实际出现的次数称为密码子使用频次。

2. 相对同义密码子使用度(Relative synonymous codon usage, RSCU)

RSCU定义是以某一个同义密码子的使用次数为分子,以该密码子预期出现的次数为分母。其中,预测出现的次数为该密码子所编码的氨基酸的所有密码子平均使用的次数,公式如下:

如果密码子使用没有偏好,则该密码子的RSCU值等于1。当某一密码子的RSCU值大于1,则表明其的使用频率相对较高。由于它计算方便,而且很直观的反映出密码子使用的偏好性,因此在大多数的密码子相关分析中,都使用了它作为衡量偏好性的标准。

3. 有效密码子数(Effective Number of Codon, ENC)

指基因中使用的有效密码子的数量,公式如下

公式中,n表示基因中所使用的密码子总数,k表示同一密码子数量,p表示密码子使用频率。ENC值的范围为20到61,20表示每个氨基酸只使用了一个密码子,61表示每个密码子都被平均使用。其值越低,说明密码子使用偏好性越强,反之亦然。 ENC能反映密码子家族中同义密码子非均衡使用的偏好程度,是评价基因整体密码子偏好性中最具有参考价值的参数。通常高表达基因的密码子偏好程度大,从而其ENC值较小;低表达基因则含有较多种类的稀有密码子,其ENC值较小。所以,可以通过比较ENC值来确定内源基因表达量的相对高低。

4. 密码子适应指数(Codon adaptation index,CAI)

对于某一个基因,CAI是指编码该蛋白的所有密码子相对于这条基因都使用最优密码子的情况下的适应系数。计算该值需要先提供在对应物种中高表达基因的最优密码子表作为参考,公式如下:

L表示基因中所使用的密码子数,CAI值介于0~1之间,该值越大表示适应性越强,CAI值广泛应用于基因表达水平的评估中。

所谓的高CAI,其实就是尽量去用参考基因组的氨基酸对应频次最高的那个密码子。

5. 最优密码子使用频率(Frequency of optimal codons, FOP)

最优密码子是指在某物种高表达基因中使用频率最高的密码子,也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子 tRNA 基因的密码子。该指标是指最优密码子和其同义密码子的比值,和CAI的计算一样,需要已知高表达基因的最优密码子。FOP的取值范围为0到1之间,1表示只有最优密码子被使用,0则表示没有最优密码子被使用到。

6. 密码子偏好性指数(Codon bias index, CBI)

它反应了一个基因中高表达优越密码子的组分情况。对目的宿主自身的基因 , 该指数和 ENC 值有很好的相关性,但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况, 故而得到广泛应用。

7. GC含量及GC3

GC3指的是基因中所有密码子的第3位的GC含量,即除了蛋氨酸、色氨酸和终止密码子外,G和C出现在密码子第三个位置的频率。由于密码子的使用偏性与密码子第三位的GC含量有很大关系,基因的 G+C 含量以及GC3值也受到了很大关注。

参考资料

  • https://zhuanlan.zhihu.com/p/97414824

  • Wu, X.M., Wu, S.F., Ren, D.M., Zhu, Y.P., and He, F.C. (2007). The analysis method and progress in the study of codon bias. Yi Chuan 29, 420–426.

  • López, J.L., Lozano, M.J., Lagares, A., Fabre, M.L., Draghi, W.O., Del Papa, M.F., Pistorio, M., Becker, A., Wibberg, D., Schlüter, A., et al. (2019). Codon Usage Heterogeneity in the Multipartite

  • Prokaryote Genome: Selection-Based Coding Bias Associated with Gene Location, Expression Level, and Ancestry. MBio 10, 1–20.

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn