使用pyGenomeTracks可視化hi-c數據

  • 2019 年 12 月 19 日
  • 筆記

可視化是數據分析中非常重要的一個環節,對於NGS分析數據的可視化,最常用的就是各種基因組瀏覽器了,既有UCSC, GBrowse等基於web的基因組瀏覽器,也有igvtools等本地化的圖形介面軟體。對於Hi-C數據,在前面的文章中也介紹過基於web的WashU Epigenome Browser基因組瀏覽器和本地化的juicebox軟體。

熟練掌握其中一個軟體的用法就可以滿足大部分的需求了,但是作為一個生信分析的極客,總感覺還是需要一款命令行工具來提高效率。python和R都擁有非常強大的可視化能力,今天介紹一款基於python語言的軟體pyGenomeTracks, 一款原汁原味的命令行工具,擁有和基因組瀏覽器相同的展現形式,網址如下

https://github.com/deeptools/pyGenomeTracks

該軟體支援可視化以下幾種資訊

  1. bigwig
  2. bed
  3. bedgraph
  4. links
  5. Hi-C matrices

採用該軟體可視化的效果圖如下

和基因組瀏覽器一樣的展現形式,每一層為一個track。該軟體採用配置文件的形式來配置需要展示的文件資訊,每個需要展示的文件和對應的參數都寫在一個標籤下,具體寫法如下

1. bigwig

2. bedgraph

3. hic

除此之後,還有x-axisspacer等標籤,分別對應x軸和兩個tracks之間的空格區域。下方如下

[spacer]  [x-axis]  where = top

編輯好配置文件之後,就可以運行了,用法如下

pyGenomeTracks   --tracks tracks.ini   --region chr2:10,000,000-11,000,000   --outFileName output.pdf

tracks參數指定配置文件的名稱,region參數指定需要可視化的基因組區域,outFileName參數指定輸出文件的名稱。為了達到美觀的效果,有許多的參數需要調整,更多細節請參考官方文檔和示例。

一個hi-c數據可視化的效果圖如下

通過該軟體,可以高效的展示hi-c數據。