chip_seq質量評估之cross correlation
- 2019 年 12 月 19 日
- 筆記
歡迎關注」生信修鍊手冊」!
chip_seq數據的質控是非常重要的,本文介紹數據質控的一個重要指標之一corss correlation。這個概念首發於以下文獻
Design and analysis of ChIP-seq experiments for DNA-binding proteins
發表在nature biotechnology上,網址如下
https://www.nature.com/articles/nbt.1508
在該文章中對chip_seqs數據分析的完整pipeline進行了探究和解釋,其中提出了一個peak位點兩側reads分佈的規律,如下所示

圖中所示的是一個NRSF轉錄因子結合位點兩側的reads分佈,將reads分成了比對到正鏈和負鏈兩部分。從黑色的密度分佈曲線可以看到,二者符合同一個高斯分佈。灰色豎線代表的是結合位點的中心,而reads密度分佈的中心點距離peak的中心點有一定偏移。
從這張圖可以發現兩個規律,第一點peak位點附近的正負鏈上reads分佈相同,第二點reads分佈的中心點和peak的中心點存在偏移。為了量化這兩個規律,科學家們提出了strand cross-correlation這個概念,考慮到reads分佈相同而各自的中心點又存在一定距離,那麼將reads的位置移動一定距離之後,正負鏈的中心重合,此時二者對稱分佈,可以參見下圖

為了有效衡量偏移過程,用泊松相關係數來分析正負鏈測序深度的相關性,當正負鏈的中心點重合時,相關係數最高。通過這種逐步偏移的方式,可以得到偏移距離和相關係數之間的對應關係。
對於所有的peak都進行上述操作,然後將所有peak的結果匯總,就可以得到cross-correlation profiles, 詳細的定義參見文獻,如下所示

將偏移距離和對應的cross-correlation繪製曲線,可以得到如下所示的結果

在該圖中會是出現兩個峰值,第一個峰值對應的peak稱之為phantom peak, 偏移距離對應測序讀長,第二個峰對應chip peak,代表真實的結合位點,偏移距離對應插入片段長度。
通過這種cross-correlation plot的分佈,可以直觀的分析數據質量,示意如下

一個高質量的chip數據,chip peak對應的峰最高,phantom peak對應的峰較矮,如上圖successful所示。如果兩種峰都能夠觀測到,而phantom peak最高,則說明抗體還是富集到了部分序列,但是背景噪聲太高了,不利於後續分析,對應marginal這種情況,如果觀測不到chip peak峰,則說明chip實驗是失敗的。
為了更加精準的進行判斷,在此基礎上提出了兩個量化指標NSC
和RSC
,公式詳見上圖。chip peak越多,phantom peak越少,則NSC和RSC的值越高,數據質量越好。
在encode的數據集中,好的chip實驗對應的這兩個指標數值範圍在5到12之間,但是他們也發現確實有些chip實驗沒問題,但是這兩個指標的值很低,同時這兩個指標和FRip socre之間有一定的相關性,所以實際分析中,這兩個指標也可以看做一個chip質量的軟標準,在encode的標準中認為NSC<1.05,RSC<0.8的實驗是失敗的,我們可以參考這個標準來進行判斷。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關注微信號,更多精彩內容等着你!