使用Minimac进行基因型填充

  • 2019 年 12 月 19 日
  • 笔记

Minimac是一款经典的基因型填充软件,该软件也是以内存消耗小,运行速度快而著称,历经了MaCH, minimac, minimac2, minmac3多个版本的更新换代,目前最新版本为v4, 网址如下

https://genome.sph.umich.edu/wiki/Minimac4

源代码保存在github上,网址如下

https://github.com/statgen/Minimac4

为了减少内存消耗,和beagle软件类似,minimac提出了一种名为M3VCF的格式,用来存储referenc panel的单倍型信息,将单倍型划分为不同的block, 示意如下

上图表示的是9个SNP位点构成的8种单倍型,minimac会根据染色体位置划分成不同的block区间,识别block区间内的unique haplotypes。两个邻近的block区域必须有一个重叠的位点,图中的9个位点划分成了两个block, 1-6号位点对应block B, 6到9号位点对应block B+1。在block B中,有3种唯一的单倍型,对应三种不同颜色。

M3VCF的内容示意如下

和VCF格式类似,在每个blcok的开头会有一行用于显示block的信息,包含的变异位点数VARIANTS,unique haplotype的个数REPS等,详细的介绍请参考以下链接

https://genome.sph.umich.edu/wiki/M3VCF_Files

相比VCF格式,该格式磁盘占用小,读取速度更快,内存消耗小。官网提供了1000G的reference panel供下载,链接如下

https://genome.sph.umich.edu/wiki/Minimac4#Reference_Panels_for_Download

该软件推荐的基因型填充pipeline步骤如下

  1. study样本分型结果的质量控制,参考GWAS的质控条件
  2. 对质控后的分型结果进行pre-phasing, 支持MACH和shapeit两个软件的结果
  3. 将pre-phasing的结果转化成VCF格式
  4. 选择reference panel,推荐1000G或者HRC
  5. 进行填充

实际操作中典型的用法如下

1. pre-phasing

以MACH为例,用法如下

mach1   -d Gwas.chr20.Unphased.dat   -p Gwas.chr20.Unphased.ped   --rounds 20   --states 200   --phase   --interim 5   --sample 5   --prefix Gwas.Chr20.Phased.Output

MACH要求输入的分型结果格式为dat和ped格式,详细的解释参见以下链接

http://csg.sph.umich.edu/abecasis/Merlin/tour/input_files.html

2. convert to vcf

通过MACH2VCF进行格式转换,用法如下

mach2VCF   --haps Gwas.Chr20.Phased.Output.hap   --snps Gwas.Chr20.Phased.Output.snps   --prefix Gwas.Chr20.Phased.Output.VCF.Format

该脚本可以从以下链接下载

ftp://share.sph.umich.edu/minimac3/Mach2VCF.v1.Source.Binary.tar.gz

3. impute

采用minimac4进行填充,用法如下

minimac4   --refHaps refPanel.m3vcf   --haps Gwas.Chr20.Phased.Output.VCF.Format.vcf   --prefix testRun   --cpus 5

minimac4会自动将染色体拆分成不同的区间,在结合多线程,可以大大提高运行速度。