【3.2】 转录标志 Transcript flags (GENCODE、TSL、ensembl)
转录标志可用于为您的研究识别最高质量或最相关转录。我们使用了这些:
- MANE Select
- Ensembl Canonical
- Transcript support level (TSL)
- APPRIS
- GENCODE Basic
- 5' and 3' incomplete
一、MANE (Matched Annotation between NCBI and EBI) Select
为了确定MANE Select 转录本,Ensembl 和 NCBI 数据库都存在的最具有生物学的转录本。在这些匹配的地方,转录本在两个数据库中都被标记为 MANE。两个数据库中的转录本完全相同,具有匹配的剪接结构、与参考基因组匹配的序列、5' 和 3' UTR 以及开始和结束。
二、Ensembl Canonical
Ensembl Canonical转录本是最保守、表达最高、编码序列最长的转录本,在其他关键资源(如 NCBI 和 UniProt)中也有体现。
三、Transcript support level
Transcript Support Level (TSL) 是一种为用户突出显示支持良好和支持不佳的转录模型的方法。该方法依赖于可以支持全长转录本结构的主要数据:由UCSC和 Ensembl 提供的 mRNA 和 EST 比对。
了解如何评估您在GENCODE中看到的转录本注释非常重要。虽然一些转录本模型通过其外显子结构的全长得到了高水平的支持,但也有一些转录本的支持很差,应该被认为是推测性的。
TSL方法:
将 mRNA 和 EST 比对与 GENCODE 转录本进行比较,并根据比对在其全长上的匹配程度对转录本进行评分。GENCODE TSL 提供了一种一致的方法来评估 GENCODE 转录本注释在人类中实际表达的支持水平。来自国际核苷酸序列数据库协作组织(GenBank、ENA 和 DDBJ)的人类转录本序列用作此分析的证据。分析中使用了来自 Ensembl 的 Exonerate RNA 比对、来自 UCSC 基因组浏览器数据库的 BLAT RNA 和 EST 比对。在由 Ensembl、UCSC、HAVANA 和 RefSeq 小组维护的列表中识别出的错误转录本和文库被标记为可疑。将蛋白质编码和非蛋白质编码转录本的 GENCODE 注释与证据比对进行比较。
未评估 MHC 区域和其他免疫基因中的注释,因为自动比对往往存在很大问题。评估单外显子基因的方法仍在开发中,它们不包括在当前的分析中。
多外显子 GENCODE 注释使用以下标准进行评估,即所有内含子都得到证据比对的支持,并且证据比对并不表明存在未注释的外显子。证据比对中的小插入和删除被假定为由于多态性,而不被视为与注释不同。所有内含子边界必须完全匹配。允许转录开始和结束位置不同。
TSL类别
以下类别分配给每个评估的注释:
- tsl1 – 转录本的所有剪接点均由至少一个非可疑 mRNA 支持
- tsl2——最好的支持 mRNA 被标记为可疑或支持来自多个 EST
- tsl3——唯一的支持来自单一的 EST
- tsl4——最好的支持 EST 被标记为可疑
- tsl5——没有单一的transcript 支持模型结构
- tslNA – 由于以下原因之一,未对transcript 进行分析:
- 假基因注释,包括转录的假基因
- 人类白细胞抗原 (HLA) 转录本
- 免疫球蛋白基因转录本
- T 细胞受体转录本
- 单外显子转录本(将包含在未来版本中)
四、APPRIS
APPRIS 是一个基于一系列计算方法注释可变剪接转录本的系统。它为人类、小鼠、斑马鱼、大鼠和猪基因组的注释提供了价值 ( Rodriguez et al 2012 )。
APPRIS 尝试为每个基因选择一个 CDS 变体作为“主要”亚型,但这并不总是可能的。主要亚型用数字 1 到 5 标记,其中 1 最重要。
- PRINCIPAL:1转录本预计仅基于 APPRIS 中的核心模块为主要功能异构体编码。
- PRINCIPAL:2当 APPRIS 核心模块无法选择明确的主要变体(大约 25% 的人类蛋白质编码基因)时,数据库会选择两个或更多的 CDS 变体作为“候选”作为主要变体。
- PRINCIPAL:3如果 APPRIS 核心模块无法选择明确的主要变体,并且不止一个变体具有不同的 CCDS 标识符,则 APPRIS 选择具有最低 CCDS 标识符的变体作为主要变体。CCDS 标识符越低,注释越早。
- PRINCIPAL:4如果 APPRIS 核心模块无法选择明确的主要 CDS,并且存在多个具有不同(但连续)CCDS 标识符的变体,则 APPRIS 选择最长的 CCDS 亚型作为主要变体。
- PRINCIPAL:5在 APPRIS 核心模块无法选择明确的主要变体并且没有候选变体被 CCDS 注释的情况下,APPRIS 选择最长的候选亚型作为主要变体。
对于 APPRIS 核心模块无法选择明确主要变体的基因(大约 25% 的人类蛋白质编码基因),未被选为主要变体的“候选”变体按以下方式标记:
- 备选方案:1在至少三个测试物种中保存的候选转录本模型。
- 备选方案:2 个候选转录本模型似乎在少于三个测试物种中是保守的。
非候选人成绩单不加标签,被视为“次要”成绩单。可以在APPRIS 网站上找到更多信息和其他网络服务。
五、GENCODE 基础版
GENCODE 协作为人类和小鼠生成在 Ensembl 中显示的基因集。GENCODE Comprehensive 包含 GENCODE 基因集中的所有基因和转录本。
GENCODE Basic 是 GENCODE Comprehensive 的子集。GENCODE Basic 包含 GENCODE 基因集中每个基因的至少一个转录本,无论生物型如何 - 即每个基因都在 GENCODE 基本集中表示。
对于蛋白质编码基因,只有全长蛋白质编码转录本(包含从起始密码子到终止密码子的完整 CDS 的转录本)包含在 GENCODE Basic 集合中。对于具有一个或多个全长转录本的蛋白质编码基因、任何部分转录本(包含 CDS_start_NF(‘未找到’)和/或 CDS_end_NF 标签)、NMD 转录本和没有注释 CDS 的转录本(‘retained_intron’ 和 ‘processed_transcript’ 生物型) 在同一基因内将被排除在 GENCODE Basic 之外。
对于 lncRNA,GENCODE Basic 包含代表基因中 85% 的剪接位点所需的最少数量的转录本。
对于假基因、sRNA 和 IG/TR,每个基因几乎总是只有 1 个转录本,因此该转录本包含在 GENCODE Basic 中。
六、GENCODE 基本规则
我们与 GENCODE 合作决定如何将成绩单标记为“基本”。这些是我们用来标记哪些转录本包含在 GENCODE Basic 集中的规则,对于每个基因:
- 遍历所有蛋白质编码(和类似的生物型)转录物并标记所有完整的(CDS 开始和结束发现)转录物。如果没有一个成绩单是完整的,则只标记具有最长 CDS 的成绩单。
- 循环遍历所有小的非编码和反义转录本,并标记所有完整的(发现 mRNA 开始和结束)转录本。如果没有一个是完整的,也循环遍历长非编码转录本,然后只标记具有最长组合外显子长度的转录本。
- 结合步骤 (1) 和 (2) 的结果,这就是显示为“GENCODE Basic”的结果。
- 如果在步骤 (3) 之后,我们得到一个空篮子并且基因中没有转录本被标记为“基本”,我们将寻找假基因转录本并标记我们找到的所有假基因转录本。
- 最后,我们仍然没有从步骤 (1) 或 (2) 或 (4) 中标记转录本,然后我们用“有问题的”生物型标记转录本,即。保留内含子、TEC、不明确的ORF 和中断域。
七、5' 和 3' 不完整 5' and 3' incomplete
如果从蛋白质片段注释转录本,导致转录本具有不完整的 ORF,则如果 N 末端缺失,它将被标记为 5' 不完整,如果 C 末端缺失,则标记为 3' 不完整,或两者兼而有之。这仅考虑 ORF;此标签不适用于具有起始密码子和终止密码子但缺失或截断 UTR 的转录本。
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn