【3.2】 转录标志 Transcript flags (GENCODE、TSL、ensembl)

转录标志可用于为您的研究识别最高质量或最相关转录。我们使用了这些:

  1. MANE Select
  2. Ensembl Canonical
  3. Transcript support level (TSL)
  4. APPRIS
  5. GENCODE Basic
  6. 5' and 3' incomplete

一、MANE (Matched Annotation between NCBI and EBI) Select

为了确定MANE Select 转录本,Ensembl 和 NCBI 数据库都存在的最具有生物学的转录本。在这些匹配的地方,转录本在两个数据库中都被标记为 MANE。两个数据库中的转录本完全相同,具有匹配的剪接结构、与参考基因组匹配的序列、5' 和 3' UTR 以及开始和结束。

二、Ensembl Canonical

Ensembl Canonical转录本是最保守、表达最高、编码序列最长的转录本,在其他关键资源(如 NCBI 和 UniProt)中也有体现。

三、Transcript support level

Transcript Support Level (TSL) 是一种为用户突出显示支持良好和支持不佳的转录模型的方法。该方法依赖于可以支持全长转录本结构的主要数据:由UCSC和 Ensembl 提供的 mRNA 和 EST 比对。

了解如何评估您在GENCODE中看到的转录本注释非常重要。虽然一些转录本模型通过其外显子结构的全长得到了高水平的支持,但也有一些转录本的支持很差,应该被认为是推测性的。

TSL方法:

将 mRNA 和 EST 比对与 GENCODE 转录本进行比较,并根据比对在其全长上的匹配程度对转录本进行评分。GENCODE TSL 提供了一种一致的方法来评估 GENCODE 转录本注释在人类中实际表达的支持水平。来自国际核苷酸序列数据库协作组织(GenBank、ENA 和 DDBJ)的人类转录本序列用作此分析的证据。分析中使用了来自 Ensembl 的 Exonerate RNA 比对、来自 UCSC 基因组浏览器数据库的 BLAT RNA 和 EST 比对。在由 Ensembl、UCSC、HAVANA 和 RefSeq 小组维护的列表中识别出的错误转录本和文库被标记为可疑。将蛋白质编码和非蛋白质编码转录本的 GENCODE 注释与证据比对进行比较。

未评估 MHC 区域和其他免疫基因中的注释,因为自动比对往往存在很大问题。评估单外显子基因的方法仍在开发中,它们不包括在当前的分析中。

多外显子 GENCODE 注释使用以下标准进行评估,即所有内含子都得到证据比对的支持,并且证据比对并不表明存在未注释的外显子。证据比对中的小插入和删除被假定为由于多态性,而不被视为与注释不同。所有内含子边界必须完全匹配。允许转录开始和结束位置不同。

TSL类别

以下类别分配给每个评估的注释:

  • tsl1 – 转录本的所有剪接点均由至少一个非可疑 mRNA 支持
  • tsl2——最好的支持 mRNA 被标记为可疑或支持来自多个 EST
  • tsl3——唯一的支持来自单一的 EST
  • tsl4——最好的支持 EST 被标记为可疑
  • tsl5——没有单一的transcript 支持模型结构
  • tslNA – 由于以下原因之一,未对transcript 进行分析:
  • 假基因注释,包括转录的假基因
  • 人类白细胞抗原 (HLA) 转录本
  • 免疫球蛋白基因转录本
  • T 细胞受体转录本
  • 单外显子转录本(将包含在未来版本中)

四、APPRIS

APPRIS 是一个基于一系列计算方法注释可变剪接转录本的系统。它为人类、小鼠、斑马鱼、大鼠和猪基因组的注释提供了价值 ( Rodriguez et al 2012 )。

APPRIS 尝试为每个基因选择一个 CDS 变体作为“主要”亚型,但这并不总是可能的。主要亚型用数字 1 到 5 标记,其中 1 最重要。

  • PRINCIPAL:1转录本预计仅基于 APPRIS 中的核心模块为主要功能异构体编码。
  • PRINCIPAL:2当 APPRIS 核心模块无法选择明确的主要变体(大约 25% 的人类蛋白质编码基因)时,数据库会选择两个或更多的 CDS 变体作为“候选”作为主要变体。
  • PRINCIPAL:3如果 APPRIS 核心模块无法选择明确的主要变体,并且不止一个变体具有不同的 CCDS 标识符,则 APPRIS 选择具有最低 CCDS 标识符的变体作为主要变体。CCDS 标识符越低,注释越早。
  • PRINCIPAL:4如果 APPRIS 核心模块无法选择明确的主要 CDS,并且存在多个具有不同(但连续)CCDS 标识符的变体,则 APPRIS 选择最长的 CCDS 亚型作为主要变体。
  • PRINCIPAL:5在 APPRIS 核心模块无法选择明确的主要变体并且没有候选变体被 CCDS 注释的情况下,APPRIS 选择最长的候选亚型作为主要变体。

对于 APPRIS 核心模块无法选择明确主要变体的基因(大约 25% 的人类蛋白质编码基因),未被选为主要变体的“候选”变体按以下方式标记:

  • 备选方案:1在至少三个测试物种中保存的候选转录本模型。
  • 备选方案:2 个候选转录本模型似乎在少于三个测试物种中是保守的。

非候选人成绩单不加标签,被视为“次要”成绩单。可以在APPRIS 网站上找到更多信息和其他网络服务。

五、GENCODE 基础版

GENCODE 协作为人类和小鼠生成在 Ensembl 中显示的基因集。GENCODE Comprehensive 包含 GENCODE 基因集中的所有基因和转录本。

GENCODE Basic 是 GENCODE Comprehensive 的子集。GENCODE Basic 包含 GENCODE 基因集中每个基因的至少一个转录本,无论生物型如何 - 即每个基因都在 GENCODE 基本集中表示。

对于蛋白质编码基因,只有全长蛋白质编码转录本(包含从起始密码子到终止密码子的完整 CDS 的转录本)包含在 GENCODE Basic 集合中。对于具有一个或多个全长转录本的蛋白质编码基因、任何部分转录本(包含 CDS_start_NF(‘未找到’)和/或 CDS_end_NF 标签)、NMD 转录本和没有注释 CDS 的转录本(‘retained_intron’ 和 ‘processed_transcript’ 生物型) 在同一基因内将被排除在 GENCODE Basic 之外。

对于 lncRNA,GENCODE Basic 包含代表基因中 85% 的剪接位点所需的最少数量的转录本。

对于假基因、sRNA 和 IG/TR,每个基因几乎总是只有 1 个转录本,因此该转录本包含在 GENCODE Basic 中。

六、GENCODE 基本规则

我们与 GENCODE 合作决定如何将成绩单标记为“基本”。这些是我们用来标记哪些转录本包含在 GENCODE Basic 集中的规则,对于每个基因:

  1. 遍历所有蛋白质编码(和类似的生物型)转录物并标记所有完整的(CDS 开始和结束发现)转录物。如果没有一个成绩单是完整的,则只标记具有最长 CDS 的成绩单。
  2. 循环遍历所有小的非编码和反义转录本,并标记所有完整的(发现 mRNA 开始和结束)转录本。如果没有一个是完整的,也循环遍历长非编码转录本,然后只标记具有最长组合外显子长度的转录本。
  3. 结合步骤 (1) 和 (2) 的结果,这就是显示为“GENCODE Basic”的结果。
  4. 如果在步骤 (3) 之后,我们得到一个空篮子并且基因中没有转录本被标记为“基本”,我们将寻找假基因转录本并标记我们找到的所有假基因转录本。
  5. 最后,我们仍然没有从步骤 (1) 或 (2) 或 (4) 中标记转录本,然后我们用“有问题的”生物型标记转录本,即。保留内含子、TEC、不明确的ORF 和中断域。

七、5' 和 3' 不完整 5' and 3' incomplete

如果从蛋白质片段注释转录本,导致转录本具有不完整的 ORF,则如果 N 末端缺失,它将被标记为 5' 不完整,如果 C 末端缺失,则标记为 3' 不完整,或两者兼而有之。这仅考虑 ORF;此标签不适用于具有起始密码子和终止密码子但缺失或截断 UTR 的转录本。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn