【3.2.4】利用filtlong对数据进行过滤

filtlong是另外一款可以过滤nanopore数据的软件,与NanoFIlt相比更加好用一些,至少不用进虚拟环境中运行了。我们每做一步分析都尽量多尝试几种方法,通过不同方法的比较来评估方法可靠性,所谓的“双保险”。但是并不是所有人都这样想的,对于部分有选择困难症的患者,会像钟表理论一样——看两支手表反而不知道时间了。

一、软件安装

filtlong也是可以一款用于过滤nanopore测序数据的软件,虽然叫做“fillter”+“long”,但其实不仅是根据过滤长片段,(软件作者起名字也好难呀)。它可以用于过滤固定长度序列,也可以根据选定的质量值(Q值)过滤,该软件同时对数据进行剪切,从读长的头或尾端截去特定数目的碱基。还可以取固定数目的数据。有些情况下测序数据产出过多,可以只选出出一部分用于分析,提高效率。

软件官网:https://github.com/rrwick/Filtlong

二、利用filtlong过滤数据

这里处理与NanoFilt同样的数据,采用同样的处理标准,长度1000bp,平均Q值7。这里不能截取头尾了。不过可以设置保留数据大小,使用keep_percent与target_bases,如果同时使用这两个选项参数逻辑乱了,那么还是只使用一个吧。

filtlong --min_length 1000 --min_mean_q 7 ../2.rawdata/minion/all.fastq.gz |  gzip >clean.filtlong.fq.gz

选项参数:

--min_length :最短长度
--min_mean_q:平均Q值
--keep_percent:保留最好数据的百分比,80%,直接写80,不能写0.8
--target_bases:保留多少数据,单位为bp

三、结果介绍

filtelong支持输入文件为压缩格式,但是不能输出压缩格式,因此,还是用一个gzip选项,又输出压缩格式文件,同样可以使用NanoPlot重新质控一下,比较一下过滤前后数据的差别。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn