使用FastQTL进行cis-eQTL分析

  • 2019 年 12 月 19 日
  • 筆記

FastQTL是一款专门用于cis-eQTL分析的软件,在GTEx项目中就是采用该软件进行cis-eQTL的分析,对应的文章发表在Bioinformatics杂志上,链接如下

https://academic.oup.com/bioinformatics/article/32/10/1479/1742545

源代码保存在sourceforge上,网址如下

http://fastqtl.sourceforge.net/

该软件具有以下几个特点

  1. 运行速度快,通过beta分布来进行置换检验,只需要100到1000次的置换检验就可以达到显著性水平;
  2. 支持离散性和连续性的协变量,同时也可以对基因表达量进行归一化
  3. 用法简单,只需要输入标准的文件格式,就可以方便的运行
  4. 支持多线程,可以充分利用计算机资源

官网提供了可以执行的二进制文件,直接下载即可

在运行前需要准备好以下3种文件

1. Genotypes

SNP分型结果对应的文件格式为VCF, 内容示意如下

在INFO中,包含了GT和DS两个字段的信息,GT表示基因分型的结果,0表示ref allele, 1表示alt allele; DS表示基因剂量。官方推荐使用DS这个字段的信息。

对于VCF文件,需要压缩之后,用tabix软件建立索引,命令如下

bgzip genotypes.vcf && tabix -p vcf genotypes.vcf.gz

2. Phenotypes

表型就是基因的表达量信息,内容示意如下

前4列记录了基因的染色体位置,后面的列是每个样本中的表达量信息,该文件是一个bed格式的文件,同样的也需要压缩并建立索引,命令如下

bgzip phenotypes.bed && tabix -p bed phenotypes.bed.gz

3. Covariates

协变量可以是离散型,也可以是连续性,内容示意如下

每一行表示一个协变量,上述文件表示的是一个群体分层的协变量。 准备好这3个文件之后,就可以进行分析了,基本用法如下

fastQTL --vcf genotypes.vcf.gz     --bed phenotypes.bed.gz     --region 22:17000000-18000000     --out nominals.default.txt.gz

输出结果的内容示意如下

第一列为基因ID, 第二列为snp ID, 第三列为基因和SNP之间的距离, 软件默认分析距离1M以内的SNP-Gene对, 第四列为pvalue值。更多用法请参考官方的说明文档。