【4.2】RNA差异表达与聚类分析
在鉴定出ncRNA后,我们如何推断其可能的生物学功能呢?首先对于miRNA等作用机制比较清楚的ncRNA,我们可以参考其作用机制,利用碱基互补等方式预测其靶标,并进而推断其生物学功能。然而,对于long non-coding RNA 等具体作用机制尚待明确的非编码RNA,这个方法就不适用了。这时,我们可以根据在表达调控网络 中,表达相关的基因往往具有功能相似性这一特征,利用表达相关来推断其功能。具体来说,在实际研究中,我们主要关注两类表达关联,在不同条件下差异表达的基因,以及不同条件下共表达的基因。
在不需要考虑实验误差的理想世界里,差异表达基因检测是很容易的。我们只需要直接比较不同条件下检测出的表达量数值即可。然而,在现实世界中,情况要复杂的多。事实上,在真实的实验过程中,由于随机误差(andom error)的存在,我们得到的测量值永远是一个分布而非一个定值。因此,不同条件下基因表达水平的比较实质上是对两个分布的比较,换句话说,除了均值之外,我们还需要考虑方差的影响。我们需哟啊利用统计学的方法,基于概率模型进行统计推断。具体来说,我们需要构建一个考虑方差的统计量(tatistic),而后基于这个统计量的零分布(NULL distribution)来计算每个基因的p-value,最后选择小于给定cut-off p-value的基因作为有统计显著性差异表达的基因。
针对RNA-Seq数据的特定,不同研究组基于Possion,负二项分布等构造了不同的统计量和差异表达计算的方法。由于这些方法基于不同的假设,其零分布之间也春在显著的差异,从而导致了最终的p-value乃至calling结果的差异。为了便于选择合适的方法。Ooron Betel等人基于多组数据集对常用的差异表达工具进行了系统评估。p-value本质上对统计错误可能性的一个概率表示。具体来说,我们在实际中可能会碰到哦啊两类错误,一类错误又称假阳性错误,指实际并没有差异表达的基因错当成了有差异表达的基因,二类错误又称假阴性错误,值实际表达有差异的基因错当成了没有差异表达。
一般来说,我们会用p-value表示一次检验中发生一类错误–也就是假阳性的错误–的概率。在实践中,我们通常对多个基因重复进行统计检验。这时就碰到多重检验问题(multiple testing lssue).例如,我们对20个不同的基因一次进行统计检验,每次检验的p-value都为0.05,那么也就是说,我们每次犯错误的概率是0.05,我们不犯错误的概率是0.95,根据乘法原理,连续20次不犯错误的概率就是0.95的20次方,约0.358。我们至少犯一次错误的概率是1-0.358=0.642.也就是说,即使每次出错的概率都是0.05,但20次最终任由超过一半的概率至少犯一次错误。这就是所谓的multiple testing issue.为了解决这个问题,最简单的办法就是将p-value的cut-off改的更严。例如,Bonferroni correction中,会将检验得到的原始p-value乘以检验进行的次数。因此,假如,我们对人类基因组3万个基因只在原始p-value小于0.05/30000=1.67*10^-6时才将之作为差异表达基因。就可以确保及时在最糟糕的情况下,也可以确保假阳性错误发生的概率小于0.05.然而,在实践中Bonferroni correction往往过于严格了。为了确保降低假阳性而抬高了假阴性错误发生的概率,从而降低了统计检验的效力(power).同时,相对于全体进行统计检验的基因,我们在实际研究中哦呢往往更关心在已经被标记为差异表达的记忆中,有多少假阳性的基因。换句话说,我们关心的恶事FDR而不是FWER.这时,可以将p-value转变为q-value.类似于p-value,q-value也是对统计错误可能性的表示(measure).然而,于p-value不同的是,q-value衡量的是False DISCOVERY Rate,对于给定的基因G,q-value给出的是在和基因g一样或更显著的差异基因群体中,假阳性发生的比率。
于差异表达类似,在不同条件下共表达的关系也可以用来推断基因的功能。对不同条件下多个基因的表达进行聚类分析(clustering)可以帮助快速的选择共表达基因。正确的聚类分析,不但有助于推断基因的功能,还可以有效的发现基因之间存在的调控关系。距离度量是聚类方法的核心。这里的距离度量,是指用来衡量两个基因的表达模式之间的相似程度。常用的距离衡量有欧式距离,又称绝对距离;和Peason距离,又称关联距离。其中欧式距离 关心的是表达量,也就是两个基因在表达水平之间的相似程度。而相关性距离则是关心的是表达模式,也就是两个基因在表达变化上的一致性。不同的距离度量,可以得到迥然不同的结果。
由于共表达通常是指表达的变化趋势,因此在实际分析中关联距离使用的频率更高一些。在应用Pearson距离时,也要注意utlier对它的影响。由于Pearson距离以来于群体水平的协方差,如果有一些特殊的outlier,会对最终的结果产生极大的影响。
参考资料:
北大高歌老师的讲课
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn