【1.2.1】常用数据库ID表示方式
虽然有综合性的数据库收集整理了百余种ID,使得它们之间的对应及转换得以顺利进行,但大部分数据分析过程中并不会用到所有的数据ID,最常见的如下表。
常用数据库 ID
ID 示例 | ID 来源 |
---|---|
ENSG00000116717 | Ensemble ID |
GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
A5PJB2_BOVIN | UniProtKB/TrEMBL, entry name |
A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
GLA, GLB, UGT1A1 | HGNC Gene Symbol |
U12345, AF123456 | GenBank, NCBI, accession number |
NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
10598, 717 | Entrez ID, NCBI |
uc001ett, uc031tla.1 | UCSC ID |
一、Ensembl stable IDs
Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号。
Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)
第一部分ENS代表这是一个Ensembl ID
第二部分代表物种, 如MUS代表小鼠(如果物种是人则此处为空)
第三部分代表ID的类型, 如G代表基因, T代表转录本, P代表蛋白, E代表外显子, S代表
第四部分是一个特殊的数字标志
第五部分代表版本号
如:ENSMUSG00000017167.6
我们知道这是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).
常用物种前缀
前缀 | 学名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
类型前缀
Ensembl_gene_identifier就是所谓的ENTREZ_GENE_ID, 即Ensembl ID里的一种, Enseml ID包括exon, protein family, gene, gene tree, protein, regulatory feature 和 transcript.
前缀 | 类型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
详见: https://qinqianshan.com/biology/biodatabase/ensembl/
二、UniProt
UniProt 中录入的数据都被分配了一个唯一的 entry name.
UniProtKB/Swiss-Prot entry name UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是最多五个便于记忆的蛋白质编号, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.
蛋白质编号示例如下:
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
物种编号示例如下:
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
HUGO | Gene Nomenclature Committee |
UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是 6 到 10 个字符组成的 accession number, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.
Accession Number
UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为:
[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}
实际上, accession number 是三种类型:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
[O P Q] | [0-9] | [A-Z 0-9] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] |
如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
详见: https://qinqianshan.com/biology/biodatabase/first-protein-sequence-database-uniprot/
三、 HUGO Gene Nomenclature Committee
Gene Symbol 是用来表示人的基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母。如:
gene symbol : gene name
- GLA :“galactosidase, alpha”;
- GLB :“galactosidase, beta”;
- UGT1A1 :“UDP glycosyltransferase 1 family, polypeptide A1” ,从UGT1A1到 UGT1A13 代表了 13 个不同的 gene symbol.
具体参考: https://qinqianshan.com/biology/biodatabase/hugo-gene-nomenclature-committee/
四、NCBI
GenBank Accession Number:GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
RefSeq Accession Number:RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.
Accession 前缀 | 类型 | 说明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly |
NC_ | Genomic | Complete genomic molecule, usually reference assembly |
NG_ | Genomic | Incomplete genomic region |
NT_ | Genomic | Contig or scaffold, clone-based or WGS |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence |
NZ_ | Genomic | Unfinished WGS |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model |
XR_ | RNA | Predicted model |
AP_ | Protein | Annotated on AC_ alternate assembly |
NP_ | Protein | Associated with an NM_ or NC_ accession |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records |
WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.
详见: https://qinqianshan.com/biology/biodatabase/genbank/
五、Entrez ID
GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)(参考链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013746/)
Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。生信菜鸟团的博客《NCBI的基因entrezID相关文件介绍》讲解了Entrez ID主要的信息文件。可以直接搜索。
gene_id | symbol | chromosome |
---|---|---|
352937 | dio2 | 20 |
上表中geneid即为 Entrezid. 在ID转换中有重要的作用。
详见: https://qinqianshan.com/biology/biodatabase/entrez/
六、UCSC ID
UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号。如: uc010qfk.3, uc010qfk.3.这个ID几乎被抛弃不用了,只是因为UCSC是三大数据库之一而已。
详见: https://qinqianshan.com/biology/biodatabase/ucsc/
七、UniGene
UniGene_cluster代表UNIGene数据库的条目 每一个UniGene Cluster包含代表单一基因的mRNA和EST序列, 包括基因表达的组织类型和图谱定位信息. 其格式为(species).(cluster ID number) 如Hs.437460
八、ID 转换
最重要的就是怎么实现ID转换。常用的id有entrez gene ID, HUGO symbol, refseq ID, ensembl ID。他们之间进行转换,做一些后续的分析。一般初学者用的ID转换的工具就是DAVID,R里面关于ID转换常用的包为org.Hs.eg.db这一类的包。
方法1:通过网站转化
方法2:用R包。
- 不管是什么ID转换,都是找到对应关系,然后match一下即可!–《生信编程直播第8题-几个ID转换咯》有完整代码
- 用R包,基于org.Xx.eg.db系列包,进行ID转换。–《ID转换大全》由完整代码
九、讨论
总之:
entrez gene ID 文盲不会写汉字,只能运用纯数字
Ensembl ID 有文化,身前物种做玉坠
refseq ID最懒惰,一躺在中间,字母在两边
Gene Symbol大写字母加数字,一生平庸最常见
注:
tax_id代表物种的id, 如人类是9606
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn