使用TADbit識別拓撲關聯結構域

  • 2019 年 12 月 19 日
  • 筆記

TADbit是一個hi-c數據分析的軟體,提供了從原始數據處理到染色質三維模型構建的完整功能,對應的文章鏈接如下

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5540598/

該軟體的pipeline如下圖所示

總體分成以下3個功能模組

  1. FASTQ
  2. Interacton Matrix
  3. 3D Models

第一個模組從原始的fastq文件開始,對序列進行品質過濾,採用GEM軟體將clean reads比對參考基因組,然後進行篩選,構建原始的交互矩陣,並進行歸一化處理,得到歸一化之後的交互矩陣。

第二個模組用於可視化hi-c交互矩陣,並且可以在交互矩陣的基礎上,識別TAD拓撲關聯結構域,對TAD進行可視化,聚類等分析。

第三個模組用於構建染色質三維構象的模型,並進行結構分析。

本文簡單整理下第二個模組的具體用法,詳細步驟如下

1. 可視化hi-c矩陣

該軟體採用python進行開發,採用了面向對象的編程思想,首先要做的就是構建一個object, 構建的過程中需要對應的hi-c交互矩陣, 軟體自帶的測試數據集包含了以下兩個hi-c矩陣

HIC_gm06690_chr19_chr19_100000_obs.txt HIC_k562_chr19_chr19_100000_obs.txt

對應GM06690K562兩種細胞系19號染色體100kb解析度下的交互矩陣。基於這兩個交互矩陣構建對象並可視化的程式碼如下

可視化的效果圖如下

2. 預測TAD結構域並可視化

有兩種可視化的策略,第一種是在hi-c的熱圖上用矩形標記TAD區域,第二種稱之為density plot, 用法如下

熱圖標記TAD之後的效果圖如下

density plot的效果圖如下

3. TAD Alignment

將多個細胞或組織的TAD進行比較,可以分析其位置是否具有保守性。用法如下

效果圖如下所示

TADbit的用法簡單,可視化效果也很棒,唯一的缺點就是安裝特別費勁。