【5.3】密码子使用情况数据库(Codon Usage Database)与CAI

一、获取Codon Usage的方法

1.1 Codon Usage Database

密码子使用情况数据库(Codon Usage Database)是CUTG的扩展WWW版本(从GenBank中制成表格的密码子使用情况,Codon Usage Tabulated from GenBank)。 可通过此万维网站点搜索每种生物中密码子的使用频率。

CUTG最初由国立遗传学研究所进化遗传学实验室的池村敏日教授开发。 (目前,池村博士是高级研究大学叶山高级研究中心的教授。)

http://www.kazusa.or.jp/codon/

数据来源:

NCBI-GenBank Flat File Release 160.0 [June 15 2007].

包含的信息:

35,799 organisms
3,027,973 complete protein coding genes (CDS's)

例如:

For K. pneumoniae go to http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=574
For A. baumannii use http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=400667

例子:Homo sapiens 进行搜索

fields: [triplet] [amino acid] [fraction] [frequency: per thousand] ([number])
UUU F 0.32 17.8 (160010)  UCU S 0.14  9.7 ( 87185)  UAU Y 0.37 12.9 (116277)  UGU C 0.27  1.7 ( 14902)
UUC F 0.68 37.2 (335160)  UCC S 0.34 22.9 (206172)  UAC Y 0.63 22.2 (200068)  UGC C 0.73  4.6 ( 40993)
UUA L 0.11 17.3 (155896)  UCA S 0.28 19.2 (172800)  UAA * 0.06  1.6 ( 14080)  UGA * 0.89 21.6 (194470)
UUG L 0.04  6.0 ( 54021)  UCG S 0.04  2.4 ( 21393)  UAG * 0.05  1.1 ( 10251)  UGG W 1.00  2.4 ( 21651)

CUU L 0.10 16.9 (151990)  CCU P 0.19 11.3 (101844)  CAU H 0.18  4.0 ( 36385)  CGU R 0.17  2.8 ( 24955)
CUC L 0.24 38.5 (346787)  CCC P 0.57 33.4 (300806)  CAC H 0.82 18.0 (162193)  CGC R 0.34  5.7 ( 51396)
CUA L 0.43 70.0 (629938)  CCA P 0.20 11.8 (106159)  CAA Q 0.88 20.5 (184525)  CGA R 0.39  6.5 ( 58761)
CUG L 0.08 13.1 (117687)  CCG P 0.03  1.8 ( 15943)  CAG Q 0.12  2.7 ( 24303)  CGG R 0.05  0.8 (  7434)

AUU I 0.26 33.9 (305172)  ACU T 0.16 14.6 (131679)  AAU N 0.24 10.6 ( 94957)  AGU S 0.05  3.5 ( 31921)
AUC I 0.40 51.4 (462276)  ACC T 0.45 41.5 (373157)  AAC N 0.76 34.1 (306667)  AGC S 0.14  9.7 ( 87297)
AUA I 0.34 44.1 (396504)  ACA T 0.36 32.7 (294191)  AAA K 0.89 23.6 (212226)  AGA R 0.02  0.4 (  3646)
AUG M 1.00 12.3 (110272)  ACG T 0.03  2.6 ( 23147)  AAG K 0.11  3.0 ( 27327)  AGG R 0.02  0.4 (  3719)

GUU V 0.21 10.7 ( 95854)  GCU A 0.20 14.0 (126194)  GAU D 0.24  4.5 ( 40601)  GGU G 0.15  8.9 ( 80137)
GUC V 0.28 14.1 (127303)  GCC A 0.42 29.6 (265992)  GAC D 0.76 14.0 (126144)  GGC G 0.35 20.8 (187077)
GUA V 0.38 19.5 (175775)  GCA A 0.34 23.8 (213888)  GAA E 0.68 16.5 (148574)  GGA G 0.33 19.5 (175656)
GUG V 0.13  6.6 ( 59489)  GCG A 0.05  3.2 ( 28747)  GAG E 0.32  7.8 ( 70450)  GGG G 0.16  9.6 ( 86524)
Coding GC 44.94% 1st letter GC 48.11% 2nd letter GC 39.34% 3rd letter GC 47.36%
Genetic code 1: Standard

Coding GC 44.94% 1st letter GC 48.11% 2nd letter GC 39.34% 3rd letter GC 47.36%

可以选择多种格式的呈现

1.2 GENEius

  1. 登陆 :http://www.geneius.de/GENEius/Security_login.action
  2. 输入登陆账号 (username = User, password = GENEius)
  3. 输入你自己的序列,可以点击分析,可以获得CAI

二、密码子适应指数(CAI)分析

密码子适应指数(CAI)是指编码区同义密码子与最佳密码子使用频率的相符程度,取值在0~1之间。CAI可以用来评估外源基因在宿主内的表达水平,CAI越高,则外源基因在宿主内的表达水平越高。

密码子适应指数分析工具的工作原理为:以高表达基因的序列为参考(参考序列),评估目的基因与参考序列的密码子使用频率相符程度。

如果分析得到的CAI很低,则基因在宿主细胞内的表达水平低,需要对目标序列进行密码子优化。

计算的网页工具:

http://www.detaibio.com/tools/codon-adaptation-index-calculator.html

三、本地化计算cai

3.1 CodonAdaptationIndex

https://github.com/Benjamin-Lee/CodonAdaptationIndex

python3的环境:

pip install git+https://github.com/Benjamin-Lee/CodonAdaptationIndex.git


Finding the CAI of a sequence is easy:
from CAI import CAI
CAI("ATGATG", reference=["ATGTTTATGATG"])
0.24948128951724224
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn