chip_seq品質評估之計算樣本間的相關性
- 2019 年 12 月 19 日
- 筆記
歡迎關注」生信修鍊手冊」!
在chip_seq的實驗中,由於抗體反應的敏感性,生物學重複樣本的一致性很難把控。為了保證重複樣本具有較好的一致性,除了在實驗上保證操作流程的規範化,對於測序數據,我們也需要對其進行評估。
deeptools是一款非常好用的工具,提供了很多有用的功能,本文主要介紹如何使用deeptools來計算樣本間的相關性,並進行可視化,主要分為以下兩個步驟
1. 計算bam文件的coverage
對於轉錄組數據,通常通過樣本的表達譜來計算樣本間的相關性,對於chip-seq等沒有明確定量結果的數據,通常的策略是將基因組劃分為等長的區間,稱之為bin
, 計算每個區間內的覆蓋度,然後通過比較不同樣本間的覆蓋度來計算樣本相關性,藉助deeptools中的multiBamSummary
命令,可以實現這一功能,用法如下
multiBamSummary bins --bamfiles file1.bam file2.bam --binSize 10000 --numberOfProcessors 10 --outRawCounts results.txt -o results.npz
2. 可視化
上一步產生的後綴為npz
的文件,通過plotCorrelation
命令可以計算相關性,該命令支援spearman和pearson兩種相關性分析,pearson相關係數建立在數據符合正態分布的基礎上,而spearman相關係數會根據數據的排序即秩進行分析,所以會數據分布沒有任何要求,但是對應的敏感性會低一點。
該命令的基本用法如下
plotCorrelation -in reads.npz --corMethod spearman --skipZeros --plotTitle "Sperman Correlation of Read Counts" --whatToPlot heatmap --colorMap RdYlBu --plotNumbers -o heatmap_SpearmanCorr.pdf --outFileCorMatrix SpearmanCorr_readCounts.tab
輸出結果示意如下

圖上標記的是相關係數,除了熱圖之外,還支援輸出兩兩比較的散點圖,用法如下
plotCorrelation -in results.npz --corMethod pearson --skipZeros --plotTitle "Pearson Correlation of Average Scores Per Transcript" --whatToPlot scatterplot -o scatterplot_PearsonCorr.pdf --outFileCorMatrix PearsonCorr_bigwigScores.tab
輸出結果如下

通過deepTools,可以很方便的對生物學重複的一致性進行評估。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關注微訊號,更多精彩內容等著你!