【4.2】Reads map到基因组--Fastv

https://github.com/OpenGene/fastv

fastv是用于从测序数据中识别微生物基因组的超快速工具。 它从FASTQ数据中检测微生物序列,生成JSON报告,并在HTML报告中可视化结果。 该工具支持短读(Illumina,BGI等)和长读(ONT,PacBio等)。

一、软件介绍

二、安装

2.1 方式一(我选的这种):

cd /data/user/sam/project/meta/lib
wget http://opengene.org/fastv/fastv

chmod a+x ./fastv

2.2 方式二(需要编译)

git clone https://github.com/OpenGene/fastv.git

cd fastv
make

make install

三、用法说明

具体见:https://github.com/OpenGene/fastv

四、我的案例

4.1 计算基因组被reads map的coverage和depth

time /data/user/sam/project/meta/lib/fastv -i 22_1.fastq -I 22_2.fastq -r final_assembly.fasta -w 60 -h result.html -j result.json

这个运算还是比较快的,20G的数据,比对到2M基因组,15个线程,差不多20分钟。生成的结果也比较易懂,html用于可视化,json结果文件用于进一步的数据分析。

说明:

  • w : 并行数
  • r : 参考基因组,fasta 文件
  • i : reads1输入文件
  • I : reads2输入文件
  • h : html结果文件
  • j : json结果文件

我输入的基因组因为包含多个contigs,所以最后汇总每个contig的结果,求出该基因组的 coverage和depth。 其中 size是 contig的碱基个数;bin_size为将序列平分成多少份,coverage为每一个bin的depth;coverage_rate为该序列,有多少比例的碱基被reads map上。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn