测序质量分析--FastQC

FastQC是一款依赖Java环境的高通量序列数据的质量控制工具,目的是为高通量测序的原始序列数据提供一种简单的质量控制检查方法。它提供了一组模块化的分析,在后续分析前,快速了解数据是否存在任何问题。

官网: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

FastQC的主要功能有:

  • 导入BAM、SAM 或者FastQ文件;
  • 提供一个快速概述,告诉你哪些模块可能存在问题;
  • 总结图表和表格,以快速评估数据;
  • 将结果导出为HTML格式的报告;
  • 离线操作,允许在不运行交互式应用程序的情况下自动生成报表。

官方说明书: https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt

一、下载安装

选择合适的版本进行下载: https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

$ unzip fastqc_v0.11.9.zip
$ cd /your/path/FastQC
$ chmod u+x fastqc
# 查看帮助文档测试
$ fastqc --help

二、测序质量分析

2.1 单文件

fastqc -q -t 4 -o /fastqc_result/ /your/path/sample_R1_1.fq.gz

参数说明:

-q:安静运行,运行过程中不会生成报告,在结束时将报告生成一个文件
-t:调用核心数目
-o ../path/to/file :文件输出位置
. fq.gz:输入文件

2.2 批量文件

fastqc -q -t 4 -o /fastqc_result/ /your/path/ *.fq.gz & 

参数说明:

*. fq.gz:输入文件,当前目录下所有名字中有“ .fq.gz ”的文件

2.3. 结果文件

每个测序文件的质检结果都包含两个文件,一个.html,一个.zip。

更多说明: https://www.jianshu.com/p/4d388cb26596

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn