【3.1.2】长非编码RNA的鉴定--CPC

二、CPC原理

转录路组可以视为细胞特定时刻基因表达谱的一个快照(snapshot of expression profile),以此相关的研究通常 在定性和定量两个方面,前者主要是鉴定(identify)出所有表到的转录本,后者则是确定这次些转录本各自的表达量。在数据挖掘(data mining)过程中,需要综合利用多组数据,通过寻找差异表达基因(calling differentially expressed genes)和基于表达模式对基因进行聚类(clustering)和分类(classifying)等方法发现影响特定生物学性状(biological characteristics)的生物分子,并从通路(pathway)等整体水平进行分析。

这个部分围绕差异基因鉴定,聚类等方法进行介绍。在这个过程中,我们需要频繁的运用统计方法来进行推断(statistical inference),与概率(probability)过程中从已知的总体(population)研究特定采样(sample)不同,统计需要基于部分样本来推断总体的性质。因此在这个过程中,常常需要参考已有的生物学知识和初步分析结果反复进行迭代式的改进(iterative improvement),这个过程常常被称为基于应用统计学习(statistical learning)方法的数据挖掘。与大部分流程都可以标准化的数据处理(data processing)不同,在数据挖据过程中,已有的生物学知识,也即所谓的领域知识,对于数据的处理,算法模型的选择乃至参数的设置都非常的重要。

所谓的非编码RNA,指不需要翻译为蛋白即可以RNA形式行使生物学功能的RNA分子。其对于的基因组DNA区域常常被称为非编码RNA基因,后者简称为RNA基因。

非编码RNA不编码蛋白质,可以猜测其各位碱基在演化过程中的保守性不会如在编码序列中那样,在密码子(putative codon)不同位置出现涨落.PhyloCSF是利用这一特点来进行分类,这个方法需要基于多个物种的基因组的比对,因此在基因组比对出错或干脆没有的时候也无法正确工作。我们有没有可能只用转录本序列本身的信息,而不依赖于多序列比对等外部信息(external information)来区分ncRNA和mRNA呢?同时我们希望这个方法不依赖于特定的机制,对于长非编码RNA和miRNA等小编码RNA统一适用。最后考虑深度测序产生的海量数据,这个方法需要在保证准确的情况下尽可能的快。之前我们提高利用SVM等机器学习算法,可以针对给定的一组特征(feature set)基于训练集(training set)而快速准确的分类。

考虑到鲁棒性(robustness)和通用性,我们希望之用序列本身的特征。但是即使只考虑序列的特征,也存在很多的选项。在之前SAPRED例子中可以看出,将多个feature组合考虑,可以显著提升整体的准确度。所以需要进行特征选择,即feature selection,所谓feature selection,是指对一组候选特征进行系统筛选(systematically screening),来得到一个针对特定分类目的的特征子集(feature subset),通常,在确保准确性的前提下,我们希望这个最终的集合尽可能的小,以加快计算速度。

根据具体方法不同,通常可以将feature selection方法分为

  • 完全搜索,
  • 启发式搜索
  • 随机搜索三类。

广度优先搜索是一种典型的完全搜索方法。基本上,就是对原始特征集合中所有可能的组合进行穷尽测试(exhaustive evaluation),显然,这个方法可以确保得到最优解。但考虑到组合爆炸问题,这个方法所需时间较多,因此在实际应用中并不适合很大的初始feature set..

前向搜索是一种启发式搜索方法。通过向空子集中依据单个feature的分来power逐个加入,直到新加入的feature无法继续提升分类准确度为止。由于前向搜索中不能删除已知被选择的feature.可能会导致高度相关的feature同时被加入,从而造成冗余。但对于n个feature,前向搜素原则上最多只需哟啊尝试n种组合,大大降低了计算量。因此可用于较大的初始feature set 模拟退火算法参考物理中金属退火的过程,在feature selection过程中引入随机参数,以试图避免陷入局部最优,但由于其本质上是一种随机算法,最终性能高度依赖于初始值以及参数的选择,同时最终结果的稳定性也是一个问题。

那么最初的feature set 又是怎样获得呢?事实上,在feature selection的过程中,选择一个合理而且有效的初始列表,队友后续的feature selection乃至identification的效果都非常重要。如果这个初始集合中混入了很多并不相关的feature,会严重影响后续的feature selection的效率。同时,这一步又高度依赖于特定的背景知识,时间主要会根据已有的文献,数据,结合自己的生物学直觉(biological intuition)来进行.

  1. 我们根据相关文献并结合生物学背景知识,选取了60余个RNA序列水平的特征,作为初始特征集。
  2. 而后,首先利用前向搜索算法,从中筛选出11个feature作为初步的特征集合。
  3. 为了进一步提高准确性,我们又基于广度优先策略进行了完全搜索,从而得到最终的6个features.
  4. 在最终的6个feature中,有3个是基于RNA序列中利用概率模型预测得到的ORF的。其中coverage是指预测得到的ORF占整个RNA序列长度的比例。而ORF integrity是指预测的ORF是否完整。最后的LOG-ODD score则是对预测可靠性的评估,分数越高,表明预测得到的ORF越可靠。另外三个是基于同源性信息的。基本的想法是编码的mRNA较不编码的non-coding RNA会有更大的可能在蛋白数据库搜索中找到相似的蛋白,虽然non-coding RNA也可能随机地匹配上若干蛋白片段,但因为其中没有真实的ORF,这些随机分配会分散在三个reading frames中,而不是像真实匹配那样,集中在一个特定,真实编码的frame里。
  5. 接下来,我们将这6个feature输入(feed into)之前课程中讲过的SVM,就可以得到最终的cpc,也就是coding potential calculator.

测试显示,CPC对于不同长度的ncRNA都可以达到90%以上的准确度,另一方面,CPC在确保准确率前提下并未牺牲速度,事实上,CPC的运行速度是同样基于SVM的CONC的10倍以上,其中,正确的feature selection 发挥了重要作用。CPC已经成为常用的在线非编码RNA鉴定工具之一,被应用于比到达调控到疾病研究乃至演化分析等多个领域。

参考资料

  • 北大高歌老师讲课
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn