使用FastQTL進行cis-eQTL分析

  • 2019 年 12 月 19 日
  • 筆記

FastQTL是一款專門用於cis-eQTL分析的軟件,在GTEx項目中就是採用該軟件進行cis-eQTL的分析,對應的文章發表在Bioinformatics雜誌上,鏈接如下

https://academic.oup.com/bioinformatics/article/32/10/1479/1742545

源代碼保存在sourceforge上,網址如下

http://fastqtl.sourceforge.net/

該軟件具有以下幾個特點

  1. 運行速度快,通過beta分佈來進行置換檢驗,只需要100到1000次的置換檢驗就可以達到顯著性水平;
  2. 支持離散性和連續性的協變量,同時也可以對基因表達量進行歸一化
  3. 用法簡單,只需要輸入標準的文件格式,就可以方便的運行
  4. 支持多線程,可以充分利用計算機資源

官網提供了可以執行的二進制文件,直接下載即可

在運行前需要準備好以下3種文件

1. Genotypes

SNP分型結果對應的文件格式為VCF, 內容示意如下

在INFO中,包含了GT和DS兩個字段的信息,GT表示基因分型的結果,0表示ref allele, 1表示alt allele; DS表示基因劑量。官方推薦使用DS這個字段的信息。

對於VCF文件,需要壓縮之後,用tabix軟件建立索引,命令如下

bgzip genotypes.vcf && tabix -p vcf genotypes.vcf.gz

2. Phenotypes

表型就是基因的表達量信息,內容示意如下

前4列記錄了基因的染色體位置,後面的列是每個樣本中的表達量信息,該文件是一個bed格式的文件,同樣的也需要壓縮並建立索引,命令如下

bgzip phenotypes.bed && tabix -p bed phenotypes.bed.gz

3. Covariates

協變量可以是離散型,也可以是連續性,內容示意如下

每一行表示一個協變量,上述文件表示的是一個群體分層的協變量。 準備好這3個文件之後,就可以進行分析了,基本用法如下

fastQTL --vcf genotypes.vcf.gz     --bed phenotypes.bed.gz     --region 22:17000000-18000000     --out nominals.default.txt.gz

輸出結果的內容示意如下

第一列為基因ID, 第二列為snp ID, 第三列為基因和SNP之間的距離, 軟件默認分析距離1M以內的SNP-Gene對, 第四列為pvalue值。更多用法請參考官方的說明文檔。