【4.2】Reads map到基因组--Fastv

November 05, 2020 Mapping 阅读量：次

fastv是用于从测序数据中识别微生物基因组的超快速工具。它从FASTQ数据中检测微生物序列，生成JSON报告，并在HTML报告中可视化结果。该工具支持短读（Illumina，BGI等）和长读（ONT，PacBio等）。

一、软件介绍

二、安装

2.1 方式一（我选的这种）：

cd /data/user/sam/project/meta/lib
wget http://opengene.org/fastv/fastv

chmod a+x ./fastv

2.2 方式二（需要编译）

git clone https://github.com/OpenGene/fastv.git

cd fastv
make

make install

三、用法说明

具体见：https://github.com/OpenGene/fastv

四、我的案例

4.1 计算基因组被reads map的coverage和depth

time /data/user/sam/project/meta/lib/fastv -i 22_1.fastq -I 22_2.fastq -r final_assembly.fasta -w 60 -h result.html -j result.json

这个运算还是比较快的，20G的数据，比对到2M基因组，15个线程，差不多20分钟。生成的结果也比较易懂，html用于可视化，json结果文件用于进一步的数据分析。

说明：

w : 并行数
r : 参考基因组，fasta 文件
i : reads1输入文件
I : reads2输入文件
h : html结果文件
j : json结果文件

我输入的基因组因为包含多个contigs，所以最后汇总每个contig的结果，求出该基因组的 coverage和depth。其中 size是 contig的碱基个数；bin_size为将序列平分成多少份，coverage为每一个bin的depth；coverage_rate为该序列，有多少比例的碱基被reads map上。

参考资料

https://github.com/OpenGene/fastv

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn