使用TADbit識別拓撲關聯結構域
- 2019 年 12 月 19 日
- 筆記
TADbit是一個hi-c數據分析的軟體,提供了從原始數據處理到染色質三維模型構建的完整功能,對應的文章鏈接如下
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5540598/
該軟體的pipeline如下圖所示

總體分成以下3個功能模組
- FASTQ
- Interacton Matrix
- 3D Models
第一個模組從原始的fastq文件開始,對序列進行品質過濾,採用GEM
軟體將clean reads比對參考基因組,然後進行篩選,構建原始的交互矩陣,並進行歸一化處理,得到歸一化之後的交互矩陣。
第二個模組用於可視化hi-c交互矩陣,並且可以在交互矩陣的基礎上,識別TAD
拓撲關聯結構域,對TAD
進行可視化,聚類等分析。
第三個模組用於構建染色質三維構象的模型,並進行結構分析。
本文簡單整理下第二個模組的具體用法,詳細步驟如下
1. 可視化hi-c矩陣
該軟體採用python
進行開發,採用了面向對象的編程思想,首先要做的就是構建一個object
, 構建的過程中需要對應的hi-c交互矩陣, 軟體自帶的測試數據集包含了以下兩個hi-c矩陣
HIC_gm06690_chr19_chr19_100000_obs.txt HIC_k562_chr19_chr19_100000_obs.txt
對應GM06690
和K562
兩種細胞系19號染色體100kb解析度下的交互矩陣。基於這兩個交互矩陣構建對象並可視化的程式碼如下

可視化的效果圖如下

2. 預測TAD結構域並可視化
有兩種可視化的策略,第一種是在hi-c的熱圖上用矩形標記TAD區域,第二種稱之為density plot, 用法如下

熱圖標記TAD之後的效果圖如下

density plot的效果圖如下

3. TAD Alignment
將多個細胞或組織的TAD
進行比較,可以分析其位置是否具有保守性。用法如下

效果圖如下所示

TADbit的用法簡單,可視化效果也很棒,唯一的缺點就是安裝特別費勁。