使用Minimac进行基因型填充
- 2019 年 12 月 19 日
- 筆記
Minimac是一款经典的基因型填充软件,该软件也是以内存消耗小,运行速度快而著称,历经了MaCH, minimac, minimac2, minmac3多个版本的更新换代,目前最新版本为v4, 网址如下
https://genome.sph.umich.edu/wiki/Minimac4
源代码保存在github上,网址如下
https://github.com/statgen/Minimac4
为了减少内存消耗,和beagle软件类似,minimac提出了一种名为M3VCF
的格式,用来存储referenc panel的单倍型信息,将单倍型划分为不同的block, 示意如下

上图表示的是9个SNP位点构成的8种单倍型,minimac会根据染色体位置划分成不同的block区间,识别block区间内的unique haplotypes。两个邻近的block区域必须有一个重叠的位点,图中的9个位点划分成了两个block, 1-6号位点对应block B, 6到9号位点对应block B+1。在block B中,有3种唯一的单倍型,对应三种不同颜色。
M3VCF的内容示意如下

和VCF格式类似,在每个blcok的开头会有一行用于显示block的信息,包含的变异位点数VARIANTS
,unique haplotype的个数REPS
等,详细的介绍请参考以下链接
https://genome.sph.umich.edu/wiki/M3VCF_Files
相比VCF格式,该格式磁盘占用小,读取速度更快,内存消耗小。官网提供了1000G的reference panel供下载,链接如下
https://genome.sph.umich.edu/wiki/Minimac4#Reference_Panels_for_Download

该软件推荐的基因型填充pipeline步骤如下
- study样本分型结果的质量控制,参考GWAS的质控条件
- 对质控后的分型结果进行pre-phasing, 支持MACH和shapeit两个软件的结果
- 将pre-phasing的结果转化成VCF格式
- 选择reference panel,推荐1000G或者HRC
- 进行填充
实际操作中典型的用法如下
1. pre-phasing
以MACH为例,用法如下
mach1 -d Gwas.chr20.Unphased.dat -p Gwas.chr20.Unphased.ped --rounds 20 --states 200 --phase --interim 5 --sample 5 --prefix Gwas.Chr20.Phased.Output
MACH要求输入的分型结果格式为dat和ped格式,详细的解释参见以下链接
http://csg.sph.umich.edu/abecasis/Merlin/tour/input_files.html
2. convert to vcf
通过MACH2VCF进行格式转换,用法如下
mach2VCF --haps Gwas.Chr20.Phased.Output.hap --snps Gwas.Chr20.Phased.Output.snps --prefix Gwas.Chr20.Phased.Output.VCF.Format
该脚本可以从以下链接下载
ftp://share.sph.umich.edu/minimac3/Mach2VCF.v1.Source.Binary.tar.gz
3. impute
采用minimac4进行填充,用法如下
minimac4 --refHaps refPanel.m3vcf --haps Gwas.Chr20.Phased.Output.VCF.Format.vcf --prefix testRun --cpus 5
minimac4会自动将染色体拆分成不同的区间,在结合多线程,可以大大提高运行速度。