【3.1】VCFtools
官网:https://vcftools.github.io/index.html
说明: http://vcftools.sourceforge.net/perl_examples.html
教材: http://vcftools.sourceforge.net/man_latest.html
- Filter out specific variants
- Compare files
- Summarize variants
- Convert to different file types
- Validate and merge files
- Create intersections and subsets of variants
一、安装
下载 : https://vcftools.github.io/index.html
unzip vcftools-vcftools-v0.1.16-18-g581c231.zip
cd vcftools-vcftools-581c231/
./autogen.sh
./configure
make
make install
二、案例
语法:
vcftools [ --vcf FILE | --gzvcf FILE | --bcf FILE] [ --out OUTPUT PREFIX ] [ FILTERING OPTIONS ] [ OUTPUT OPTIONS ]
常用例子:
1.提取压缩的vcf中MT染色体上所有的位点的频率
vcftools --gzvcf /bioinfo/data/1000G/rawData/20130502/20130502.v5a/ALL.chrMT.phase3_callmom.20130502.genotypes.vcf.gz --freq --chr MT --out chrMT_analysis
vcftools --vcf 198_result.vcf --freq --chr chr1 --out 198_depth.tsv
2.去掉vcf中inde,并形成新的vcf
vcftools --gzvcf /bioinfo/data/1000G/rawData/20130502/20130502.v5a/ALL.chrMT.phase3_callmom.20130502.genotypes.vcf.gz --remove-indels --recode --recode-INFO-all --chr MT --out chrMT_snps_all
3.提取vcf中某个样品的信息
vcftools --gzvcf /bioinfo/data/1000G/rawData/20130502/20130502.v5a/ALL.chrMT.phase3_callmom.20130502.genotypes.vcf.gz --indv NA18603 --recode --out new.vcf
如果不加–recode,会报错Keeping individuals in ‘keep’ list
提取某些样本的信息
vcftools --vcf rename_rs_samples_filtered.vcf --remove skip_samples.tsv --recode --out new.vcf
skip_samples.tsv为一行一个样本
4.提取某个区间的信息
vcftools --gzvcf /bioinfo/data/1000G/rawData/20130502/20130502.v5a/ALL.chrMT.phase3_callmom.20130502.genotypes.vcf.gz --indv NA18603 --recode --bed /home/qqin/GenoNGS_dev/data/WellWise/wellwise.target.amplicon.bed --out NA18603.vcf
-bed –exclude-positions
3.合并vcf
样本的合并:
vcf-merge NA14624-100-1_gatk-ug.vcf.gz NA14624-100-1_gatk-ug.vcf.gz >merge_vcf
几个样本的合并,每个样本占有一列 位点的合并(可以多个样本的合并)
vcf-concat A.vcf.gz B.vcf.gz C.vcf.gz | gzip -c > out.vcf.gz
vcf-concat samples_ALL.chrX.phase3_shapeit2_mvncall_integrated.20130502.genotypes.vcf.recode.vcf samples_ALL.chr11.phase3_shapeit2_mvncall_integrated_v5.20130502.genotypes.vcf.recode.vcf >total.vcf
4.depth的计算
计算每个位点每个样本的测序深度
vcftools --geno-depth --vcf total_samples_gatk-ug.vcf
计算每个位点深度之和
vcftools --site-depth --vcf total_samples_gatk-ug.vcf
5.提取某一样本,某一个位点的信息
vcftools --snp rs7513464 --snp rs1058164 --indv HG22628 --gzvcf ALL.chr22.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz --recode --stdout
5.所有位点,用Annovar注释,然后提取
三、报错
1.tabix不能建立index
tabix -l NA14624-100-1_gatk-ug.vcf 报错:Could not load .tbi index of NA14624-100-1_gatk-ug.vcf
tabix -p vcf NA14624-100-1_gatk-ug.vcf 报错: Not a BGZF file
解决办法:
gunzip dbsnp_138.hg19.vcf.gz
bgzip dbsnp_138.hg19.vcf
tabix -p vcf dbsnp_138.hg19.vcf.gz
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn