3.2.3 uchime去除chimera
之前用于去除嵌合体的工具包括:CHIMERA_CHECK(Maidak, et al., 1999), Pintail (Ashelford, et al., 2005), Mallard(Ashelford, et al., 2006), Bellerophon (Huber, et al., 2004), Chi-meraChecker (Nilsson, et al., 2010), ChimeraSlayer (Haas, et al.,2011) and Perseus (Quince, et al., 2011)。Pintail和Mallard是基于可信赖的数据的比对。CHIMERA_CHECK是ITS标记的方法,用的是BLAST。ChimeraSlayer跟不好嵌合体的数据库进行多重比对。Perseus是454中的用于去除嵌合体的,从头的方法。
Uchime既可以基于不含嵌合体的序列比对,又有de novo模型。
上图是嵌合体的3种比对模型,其中Q是输入序列,而A,B则为父链
这个图是uchime序列比对的算法。输入序列被切割成4个没有重叠的部分(chunk),每一个用来去比对数据库的序列,每一个chunk匹配上的数据库中的序列被标记出来,通过计算相似性最近的两条父链被发现。A three-way chimeric alignment is constructed, and a chimera is reported if its score (Eq. 2) exceeds a preset threshold.
从头模型,跟Perseus的原理差不多,因为PCR扩增过程中父链要比嵌合体的循环的次数多,所以丰度上会有变化。
uchime_ref 根据序列比对来去除chimera
/sam/qiime/Uparse/usearch -uchime_ref lib1/seqs.fna -db /sam/qiime/Uparse/gold.fasta -uchimeout results.uchime -uchimealns alnfile -chimeras ch.fasta -nonchimeras good.fasta -strand plus
uchime_ref
-db 16S gene ,推荐的数据为gold database (不建议用大的16S database like Greengenes,下载地址为 http://drive5.com/uchime/uchime_download.html),针对ITS,推荐使用数据库UNITE。
‑strand 必须有,而且后面跟plus,意思是数据库必须。This means that the database must be oriented on the same strand as the query sequences (or contain both forward and reverse-complemented reference sequences).
生成文件:
-Uchimeout http://drive5.com/usearch/manual/uchimeout.html
Uchimealns Human-readable 3-way alignments of query to putative parents.
Chimeras Chimera序列
Nonchimeras 非Chimera序列
Qiime也融合了uchime,脚本为identify_chimeric_seqs.py
identify_chimeric_seqs.py -m usearch61 -i lib1/seqs.fna -r /sam/qiime/Uparse/gold.fasta -o usearch61_chimera_checking/ --non_chimeras_retention intersection
参考资料:
UPARSE pipeline http://drive5.com/usearch/manual/uparse_pipeline.html
uchime_ref command http://drive5.com/usearch/manual/uchime_ref.html
usearch manual http://drive5.com/usearch/manual/
文献:UCHIME improves sensitivity and speed of chimera detection
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn