生物信息學數據庫使用教程(十):cBioPortal數據庫使用教程

  • 2019 年 12 月 13 日
  • 筆記

cBioPortal介紹

使用cBioPortal數據庫可以先閱讀關於該數據庫的文章:

  • The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data.
  • Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal.

大規模的癌症基因組計劃,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在從多技術平台產生更多的癌症基因組數據。這使得這些數據的整合,探索和分析越來越具有挑戰性,尤其是對於沒有計算機背景知識的科學家來說。cBioPortal是專門設計來降低對這些複雜數據的接近門檻,因此,促進基因組數據向新的生物學視野,治療和臨床特徵的轉變。

cBioPortal這個網站,促進多維度癌症基因集數據的探索,可以允許跨基因,樣本和數據類型的可視化分析。用戶可以可視化一個癌症研究中多樣本間基因改變的模式,並比較點多癌症研究中基因改變頻率,或者在一個個體腫瘤樣本中總結概括所有的相關的基因組改變。這個網站也支持生物通路探索,生存分析,基因改變間的相互獨特性分析,可選擇性的數據下載,編程接口和可以用於發表的可視化總結。

整合進cBioPortal的基因組數據類型包括體細胞突變,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表達,DNA甲基化,蛋白質富集,磷酸化蛋白富集。目前,網站包含從10個出版的癌症研究的數據集,包括癌症細胞系百科全書,多於20個研究在TCGA流程。對沒有一個腫瘤樣本,數據是可以從多基因組數據分析平台可獲取的。網站的簡化概念是在基因水平整合多種數據類型,然後詢問每個sample中專門的生物學事件的呈現(例如,基因突變,基因純和刪除,基因擴增,上調或下調的mRNA或miRNA),蛋白的上下調等。這使得用戶可以查詢每個gene和每個樣本的的遺傳學改變,並檢驗複發(某些特殊癌症)。

下面我們介紹該數據庫的使用教程

主頁面介紹

地址:http://www.cbioportal.org/

左側區域是各種癌症組織的研究,數字表示某腫瘤中研究個數,比如,該數據庫中乳腺癌有15個研究,中間是所有研究,可根據左側欄選擇,默認顯示全部,最右側是對該數據庫中274個癌症研究的案例統計,顯示前20個,可通過點擊(details)查看,下表列出了每個癌症研究和數據類型的可用樣本數量。

我們選擇乳腺癌,中間窗口就只出現乳腺癌相關的研究,總共有15個。我們選擇入侵乳腺癌的第二個研究,該研究有70個樣本,然後點擊Explore Selected Studies

新頁面是該研究的數據可視化,部分截圖如下:

下圖是基因組拷貝數和突變數的統計,鼠標放在點上可顯示數據。

左側是突變基因,#Mut是突變的總樣本數,#是有一個或多個突變的樣本數,Freq表示突變頻率。

cytoband表示該基因在染色體上的位置,CNA表示拷貝數改變,其他同上。

下圖是關於突變數的一些統計圖

切換到臨床數據頁面,有關每個病人的詳細描述。可點擊下載按鈕下載數據。

切換到CN Segments窗口,為所選的70個樣本分割拷貝數數據。可點擊下載按鈕下載數據。

切換到首頁頁面,我們還可以通過基因檢索。

當輸入gene sets分析的時候,用戶可以手工輸入HUGO gene symbols,Entrez gene ids,gene aliase或從預先定義的自己感興趣的gene sets或pathways中選擇。系統也會給我們選擇一些常見通路的基因。

我們選擇TP53通路,會自動將該通路的基因填入框中。點擊提交。

然後會得到我們輸入的基因在每個病人/樣本中的突變情況。

行代表gene,列代表samples。圖標和顏色代表代表不同的基因型改變,包括突變,CNAs(amplifications擴增,homozygous deletions純合子缺失),基因或蛋白丰度改變。把鼠標放到每一個小標誌上,可以看到關於caseID(代表一個病人sample或cell line)等的詳細信息,點擊樣本號可以進入該sample的詳細信息,包括年齡性別還有gene等詳細情況。對於突變evens,這顯示了氨基酸的改變。默認情況下,cases按alterations進行排序。用戶可以重新排序,比如字母,caseID,等。用戶也可以選擇移除未改變的cases從可視化圖中。通過可視化一系列cases中的gene改變,oncoprints可以幫助鑒定比如gene sets中的相斥或共發生事件。

一旦submit按鈕按下,oncoprint結果會自動顯示。

如果genes不適合window,會有水平滑動條。

為了讓oncoprint更緊湊,有三個選擇可以進行自定義,(i)使用zoon bar進行尺度縮小放大(ii)通過選擇view下去反選「show unaltered cases」移除沒有改變的cases(iii)反選view下的show whitespace between columns移除samples之間的gaps。

在sort中改變顯示順序

可以輸出oncoprint,選擇下載成xml文件,in scalable vector graphic(SVG)格式。

如果想修正或開始查詢,選擇結果面板上的「modify query」。若要獲得額外的詳細信息,那就動下你的鼠標到小標誌上面吧。

在癌症類型summary面板,

在Mutual exclusivity面板,The analysis tested 6 pairs between the 4 tracks in the OncoPrint。

Plot面板可以用來可視化數據,比如臨床狀態和突變數。

在Mutation窗口,顯示基因的突變信息。

當然還有很多其他功能,自己探索一下!