deep sequence中的Duplicate

我们将deep sequence中完全相同的序列统称为duplicate。

通常这种重复会有几个来源:

  • 一 测序模板中存在一模一样的片断;
  • 二 测序过程中PCR产生的重复;
  • 三 信号读取过程中读到了同一pcr产物。

建库时的PCR扩增导致的是主要的原因,测序不会导致重复。???

一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplicate。针对DNA来说,第一种Duplicate去除比较简单,在比对之前除去也可以节省比对时间;第二种比较复杂,对于DNA和RNA来说都有不去的理由,举个RNA的例子来说,cDNA的等位基因来源于父本和母本的重组,而等位基因的snp差异有可能表现出相关的生物信息(ASE),如果去掉Duplicate就会丢掉一些信息。

按照这里的讨论,对于copy number detection, SV detection, ChIP-seq, and RNA-seq都应该做duplicate removal。去除的优点是可以大量的减少计算,降低假阳性。但是去除的话也有造成数据大量损失的风险,也就是说会降低真阳性结果。有文章对相同的library做了两次测序,一次是single end, 一次paired end。比较发现,SE的duplicate高达28%,而PE的duplicate只有8%。当把PE的结果当成SE结果来处理时,duplicate又升至28%。还有些私下的讨论认为,实际的duplicate应该只有1%左右。这里强调了去除duplicate对于数据完整性的影响。那么为什么人们在做CN/SV/ChIP-seq/RNA-seq的时候倾向于做duplicate removal呢?这主要的理论依据是在准备library的步骤中,所有模板小片段都是由超声波震断的,而相同的mRNA分子在同一地方被打断的可能性几乎为零。另一方面,当测序深度过深时,不可避免的,同一模板会被多次测序。这时候更应该去除duplicate,可以消除饱和。对于一些由酶切产生的片段,比如clip-seq, REDseq (Restriction Enzyme digestion sequence)等,就不需要做去除duplicate。在做去除duplicate之前,首先要在genome browser中观察一下mapped好的序列,看看其duplicate的存在的程度。肉眼观察这种事情,因为没有一定的标尺,所以非常不好总结。做这件事情的唯一好处就是,看得多了,就明白什么是好的测序结果。

Duplicate是个老大难问题,但处理与否要看具体情况,比如做DNA样本的时候,一定会处理,而RNA样本选择不处理。接下来有一些解决方法,但是“但是”也会很多,接受现实吧~~~

是否去除RNA-seq中的duplicate?

答案:是不能的。

因为当前去除PCR duplicate的方法,就是align到基因组或者转录组 同一个位点的reads,只保留一个。这样一来,很多数据 50%以上的reads都要去掉,其中一部分来自PCR duplicate, 但是大部分还是由于高表达造成的。

理由是PCR duplicate是偶然发生的,小概率事件,不可能那么多。 所以还是不去为好。

所以说,博主认为并不能简单的处理Duplicate。在第二代测序中,较长的reads和PE测序要比SE测序无论从组装还是从比对来说都要好,当然也包括校正Duplicate。但是(是不是很痛恨这个”但是“),如果你想做跟拷贝数变异有关,抱歉这种方法仍然拯救不了你,对于多倍体的物种,那就更不要说了。

接下来是建议解决方案:

  1. 避免微量的样品建库,单细胞测序比较蛋疼
  2. PCR扩增循环保持一个绝对低的水平
  3. PE建库,片段尽量长,不过solexa的长片段测序质量令人担忧。。。
  4. 对于DNA样本来说,将PE整长度当成SE来进行去除Duplicate
  5. RNA建议不要去除Duplicate,但尽量保证前3项条件
  6. 实验设计,很大的问题就是实验过程中试剂、方法导致PCR扩增的偏向性,多看看文献吧。。。博主也无能为力。。。

@哈皮 因为一般来说,meta样品的测序量都不会饱和的,dup也基本木有,所以木有去

参考资料:

高山博客 : http://blog.sciencenet.cn/blog-907017-699233.html

浮生终有醒博客 http://blog.csdn.net/skenoy/article/details/8658426

梦一场的博客: http://lixuenan200806126.wap.blog.163.com/w2/blogDetail.do;jsessionid=32BFE8E4EC556BC6C8D21A0E8907A002.blog160-8010?blogId=1388288992&blogNS=UdE8S2KMSS4RO2wazh5Js5DUSon2b_YCQj66Jf5yy6tqqhZD_3etdyde_N_E4udMU5hHN7Pp3bU=&hostID=lixuenan200806@126

ps:

这个问题理解的还不是很透彻,上面的内容是根据别人写的整理的,正确与否还需要商定。我个人来言需要看到测序过程我才能理解吧。

这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn