HiC-Pro:靈活的Hi-C數據處理軟體
- 2019 年 12 月 20 日
- 筆記
HiC-Pro是一款高效的Hi-C數據分析軟體,提供了從原始數據到歸一化之後的HI-C圖譜構建的完整功能,運行效率高,用法簡便。該軟體對應的文章鏈接如下
https://genomebiology.biomedcentral.com/track/pdf/10.1186/s13059-015-0831-x
完整的pipeline如下圖所示

紅色方框標記的是數據預處理部分,功能和HICUP軟體類似,包括序列比對和篩選valid pairs;預處理之後就是binning, 構建不同解析度下的原始的交互矩陣contact map, 最後對原始的contact map進行歸一化處理,得到校正後的contact map。
HiC-Pro的一個強大功能在於可以構建單倍型級別的Hi-C圖譜,單倍型級別的Hi-C圖譜有助於更加精細化理解基因組三維結構,進一步對基因調控等功能進行深入細緻的研究。
整個處理過程分為以下幾個步驟
1. 序列比對
HiC-Pro採用了兩步比對的策略,如下所示

考慮到連接點在插入片段上的位置和測序讀長的關係,第一步先將R1和R2端分別與基因組比對,對於沒有比對上的reads, 可能是存在連接點的嵌合體reads, 也可能本身就是unmapping reads, 通過從3』端切除部分序列的方式,使得嵌合體序列也能夠比對上基因組, 兩步策略保證了數據的利用率。
2. 篩選valid pairs
比對時將R1和R2端分開單獨考慮,但是二者其實來自於同一個fragment, 這一步的篩選其實是能夠代表染色質交互的有效fragment,這樣的fragment肯定是一個嵌合體序列,有來自交互作用的兩個染色質區域的序列構成, 如下圖所示

只有來自嵌合體fragment的reads才被定義為valid pairs, 然後進行後續分析。
3. 構建原始Hi-C圖譜
根據指定的解析度,統計兩個bin
區域內valid pairs的數目, 去除PCR重複之後,構建原始的交互矩陣。
4. 歸一化
不同區域GC含量,mapping概率等系統誤差都使得原始的交互矩陣不能夠有效代表染色質交互資訊, 所以需要進行歸一化。採用了一種迭代校正的歸一化演算法對原始的交互矩陣進行歸一化,矯正系統誤差。
HIC-Pro還提供了一系列的質控標準,如下圖所示

一個高品質的文庫絕大部分肯定都能夠比對上基因組,如圖A所示, R1和R2的比對率都很高。而比對上的reads中應該主要是unique mapping, 如圖A第二張圖所示,multiple hits和low quality也是文庫品質的指標之一。
valid pairs的比例則是文庫品質的最直接體現,valid pairs的比例至少要在50%以上。
將染色質交互作用進一步區分為染色質之間的inter-interaction. 對應B圖中的trans contact, 和染色質內部的intra-interaction, 對應cis contact。對於cis contact, 根據距離閾值分成short和long兩種。
一個高品質的文庫首先intra-interaction的比例在40%以上,其次由於線性距離近的染色質更容易隨機結合,引入系統誤差,所以高品質文庫的cis long contacts的比例在40%以上。
HiC-Pro所有的參數都放置在一個配置文件中,既可以一鍵化運行整個pipeline, 也可以分布運行,單獨執行其中的某幾步,靈活性很強,後續會介紹其詳細用法。