­

chip_seq品質評估之計算樣本間的相關性

  • 2019 年 12 月 19 日
  • 筆記

歡迎關注」生信修鍊手冊」!

在chip_seq的實驗中,由於抗體反應的敏感性,生物學重複樣本的一致性很難把控。為了保證重複樣本具有較好的一致性,除了在實驗上保證操作流程的規範化,對於測序數據,我們也需要對其進行評估。

deeptools是一款非常好用的工具,提供了很多有用的功能,本文主要介紹如何使用deeptools來計算樣本間的相關性,並進行可視化,主要分為以下兩個步驟

1. 計算bam文件的coverage

對於轉錄組數據,通常通過樣本的表達譜來計算樣本間的相關性,對於chip-seq等沒有明確定量結果的數據,通常的策略是將基因組劃分為等長的區間,稱之為bin, 計算每個區間內的覆蓋度,然後通過比較不同樣本間的覆蓋度來計算樣本相關性,藉助deeptools中的multiBamSummary命令,可以實現這一功能,用法如下

multiBamSummary bins   --bamfiles file1.bam file2.bam   --binSize 10000   --numberOfProcessors 10   --outRawCounts results.txt   -o results.npz 

2. 可視化

上一步產生的後綴為npz的文件,通過plotCorrelation命令可以計算相關性,該命令支援spearman和pearson兩種相關性分析,pearson相關係數建立在數據符合正態分布的基礎上,而spearman相關係數會根據數據的排序即秩進行分析,所以會數據分布沒有任何要求,但是對應的敏感性會低一點。

該命令的基本用法如下

plotCorrelation   -in reads.npz   --corMethod spearman   --skipZeros   --plotTitle "Sperman Correlation of Read Counts"   --whatToPlot heatmap   --colorMap RdYlBu   --plotNumbers   -o heatmap_SpearmanCorr.pdf   --outFileCorMatrix SpearmanCorr_readCounts.tab

輸出結果示意如下

圖上標記的是相關係數,除了熱圖之外,還支援輸出兩兩比較的散點圖,用法如下

plotCorrelation   -in results.npz   --corMethod pearson   --skipZeros   --plotTitle "Pearson Correlation of Average Scores Per Transcript"   --whatToPlot scatterplot   -o scatterplot_PearsonCorr.pdf     --outFileCorMatrix PearsonCorr_bigwigScores.tab

輸出結果如下

通過deepTools,可以很方便的對生物學重複的一致性進行評估。

·end·

—如果喜歡,快分享給你的朋友們吧—

掃描關注微訊號,更多精彩內容等著你!