【5.3】密码子使用情况数据库(Codon Usage Database)与CAI
一、获取Codon Usage的方法
1.1 Codon Usage Database
密码子使用情况数据库(Codon Usage Database)是CUTG的扩展WWW版本(从GenBank中制成表格的密码子使用情况,Codon Usage Tabulated from GenBank)。 可通过此万维网站点搜索每种生物中密码子的使用频率。
CUTG最初由国立遗传学研究所进化遗传学实验室的池村敏日教授开发。 (目前,池村博士是高级研究大学叶山高级研究中心的教授。)
http://www.kazusa.or.jp/codon/
数据来源:
NCBI-GenBank Flat File Release 160.0 [June 15 2007].
包含的信息:
35,799 organisms
3,027,973 complete protein coding genes (CDS's)
例如:
For K. pneumoniae go to http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=574
For A. baumannii use http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=400667
例子:Homo sapiens 进行搜索
fields: [triplet] [amino acid] [fraction] [frequency: per thousand] ([number])
UUU F 0.32 17.8 (160010) UCU S 0.14 9.7 ( 87185) UAU Y 0.37 12.9 (116277) UGU C 0.27 1.7 ( 14902)
UUC F 0.68 37.2 (335160) UCC S 0.34 22.9 (206172) UAC Y 0.63 22.2 (200068) UGC C 0.73 4.6 ( 40993)
UUA L 0.11 17.3 (155896) UCA S 0.28 19.2 (172800) UAA * 0.06 1.6 ( 14080) UGA * 0.89 21.6 (194470)
UUG L 0.04 6.0 ( 54021) UCG S 0.04 2.4 ( 21393) UAG * 0.05 1.1 ( 10251) UGG W 1.00 2.4 ( 21651)
CUU L 0.10 16.9 (151990) CCU P 0.19 11.3 (101844) CAU H 0.18 4.0 ( 36385) CGU R 0.17 2.8 ( 24955)
CUC L 0.24 38.5 (346787) CCC P 0.57 33.4 (300806) CAC H 0.82 18.0 (162193) CGC R 0.34 5.7 ( 51396)
CUA L 0.43 70.0 (629938) CCA P 0.20 11.8 (106159) CAA Q 0.88 20.5 (184525) CGA R 0.39 6.5 ( 58761)
CUG L 0.08 13.1 (117687) CCG P 0.03 1.8 ( 15943) CAG Q 0.12 2.7 ( 24303) CGG R 0.05 0.8 ( 7434)
AUU I 0.26 33.9 (305172) ACU T 0.16 14.6 (131679) AAU N 0.24 10.6 ( 94957) AGU S 0.05 3.5 ( 31921)
AUC I 0.40 51.4 (462276) ACC T 0.45 41.5 (373157) AAC N 0.76 34.1 (306667) AGC S 0.14 9.7 ( 87297)
AUA I 0.34 44.1 (396504) ACA T 0.36 32.7 (294191) AAA K 0.89 23.6 (212226) AGA R 0.02 0.4 ( 3646)
AUG M 1.00 12.3 (110272) ACG T 0.03 2.6 ( 23147) AAG K 0.11 3.0 ( 27327) AGG R 0.02 0.4 ( 3719)
GUU V 0.21 10.7 ( 95854) GCU A 0.20 14.0 (126194) GAU D 0.24 4.5 ( 40601) GGU G 0.15 8.9 ( 80137)
GUC V 0.28 14.1 (127303) GCC A 0.42 29.6 (265992) GAC D 0.76 14.0 (126144) GGC G 0.35 20.8 (187077)
GUA V 0.38 19.5 (175775) GCA A 0.34 23.8 (213888) GAA E 0.68 16.5 (148574) GGA G 0.33 19.5 (175656)
GUG V 0.13 6.6 ( 59489) GCG A 0.05 3.2 ( 28747) GAG E 0.32 7.8 ( 70450) GGG G 0.16 9.6 ( 86524)
Coding GC 44.94% 1st letter GC 48.11% 2nd letter GC 39.34% 3rd letter GC 47.36%
Genetic code 1: Standard
Coding GC 44.94% 1st letter GC 48.11% 2nd letter GC 39.34% 3rd letter GC 47.36%
可以选择多种格式的呈现
1.2 GENEius
- 登陆 :http://www.geneius.de/GENEius/Security_login.action
- 输入登陆账号 (username = User, password = GENEius)
- 输入你自己的序列,可以点击分析,可以获得CAI
二、密码子适应指数(CAI)分析
密码子适应指数(CAI)是指编码区同义密码子与最佳密码子使用频率的相符程度,取值在0~1之间。CAI可以用来评估外源基因在宿主内的表达水平,CAI越高,则外源基因在宿主内的表达水平越高。
密码子适应指数分析工具的工作原理为:以高表达基因的序列为参考(参考序列),评估目的基因与参考序列的密码子使用频率相符程度。
如果分析得到的CAI很低,则基因在宿主细胞内的表达水平低,需要对目标序列进行密码子优化。
计算的网页工具:
http://www.detaibio.com/tools/codon-adaptation-index-calculator.html
三、本地化计算cai
3.1 CodonAdaptationIndex
https://github.com/Benjamin-Lee/CodonAdaptationIndex
python3的环境:
pip install git+https://github.com/Benjamin-Lee/CodonAdaptationIndex.git
Finding the CAI of a sequence is easy:
from CAI import CAI
CAI("ATGATG", reference=["ATGTTTATGATG"])
0.24948128951724224
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn