高通量测序数据的处理工具--picard
一组用于操作高通量测序 (HTS) 数据和格式的 Java 命令行工具。
Picard 是使用 HTSJDK Java 库 HTSJDK 实现的,以支持访问通常用于高通量测序数据的文件格式,例如 SAM 和 VCF。
支持的功能包括:*
- AddCommentsToBam
- AddOrReplaceReadGroups
- BamToBfq
- BamIndexStats
- BedToIntervalList
- BuildBamIndex
- CalculateHsMetrics
- CleanSam
- CollectAlignmentSummaryMetrics
- CollectBaseDistributionByCycle
- CollectGcBiasMetrics
- CollectInsertSizeMetrics
- CollectMultipleMetrics
- CollectTargetedPcrMetrics
- CollectRnaSeqMetrics
- CollectWgsMetrics
- CompareSAMs
- CreateSequenceDictionary
- DownsampleSam
- ExtractIlluminaBarcodes
- EstimateLibraryComplexity
- FastqToSam
- FifoBuffer
- FilterSamReads
- FilterVcf
- FixMateInformation
- GatherBamFiles
- GatherVcfs
- GenotypeConcordance
- IlluminaBasecallsToFastq
- IlluminaBasecallsToSam
- CheckIlluminaDirectory
- IntervalListTools
- LiftoverVcf
- MakeSitesOnlyVcf
- MarkDuplicates
- MarkDuplicatesWithMateCigar
- MeanQualityByCycle
- MergeBamAlignment
- MergeSamFiles
- MergeVcfs
- NormalizeFasta
- ExtractSequences
- QualityScoreDistribution
- ReorderSam
- ReplaceSamHeader
- RevertSam
- RevertOriginalBaseQualitiesAndAddMateCigar
- SamFormatConverter
- SamToFastq
- SortSam
- SortVcf
- UpdateVcfSequenceDictionary
- VcfFormatConverter
- MarkIlluminaAdapters
- SplitVcfs
- ValidateSamFile
- ViewSam
- VcfToIntervalList
一、安装
安装: http://broadinstitute.github.io/picard/
cd /data/software/
wget -c https://github.com/broadinstitute/picard/releases/download/2.27.1/picard.jar
二、使用说明
更多文档:
- https://broadinstitute.github.io/picard/command-line-overview.html#AddOrReplaceReadGroups
- https://broadinstitute.github.io/picard/
说明 文档:https://cncbi.github.io/Picard-Manual-CN/command-line-overview.html#CompareSAMs
java jvm-args -jar picard.jar PicardCommandName OPTION1=value1 OPTION2=value2...
大多数命令都设计为在 2GB 的 JVM 中运行,因此建议使用 JVM 参数 -Xmx2g。
三、报错
四、讨论
五、我的案例
5.1 检查bam的问题
java -jar /data/software/picard.jar ValidateSamFile I=198p.bam OUTPUT=198pr.bam MODE=SUMMARY
## HISTOGRAM java.lang.String
Error Type Count
ERROR:INVALID_INDEX_FILE_POINTER 1
ERROR:MISSING_READ_GROUP 1
WARNING:RECORD_MISSING_READ_GROUP 33625198
java -jar /data/software/picard.jar ValidateSamFile I=198p.bam OUTPUT=198pr.bam MODE=SUMMARY IGNORE=INVALID_INDEX_FILE_POINTER
这个报错的原因,怀疑是单个基因片段对应的reads数目太多,超出了处理上线。 建议换掉sam, 用sambamba来从sam 得到bam
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn