使用TCGAbiolinks進行生存分析
- 2019 年 12 月 19 日
- 筆記
TCGAbiolinks不僅提供了數據的下載功能,還提供了各種各樣的下游分析功能,生存分析是TCGA數據最經典的應用場景之一,通過TCGAbiolinks可以輕鬆實現生存分析。
在進行生存分析之前,首先要得到患者的臨床數據。在之前的文章中介紹了通過GDC來下載臨床數據的方法,在GDC中臨床數據有兩種形式
- XML 每個樣本的所有臨床資訊以XML的格式進行存儲,該文件中包含的臨床資訊是最為全面的
- TSV/JSON 將需要下載的數據添加到GDC
cart
之後,可以選擇下載tsv
或者json
格式的臨床資訊,這種方式得到的資訊只是XML中資訊的一個子集,缺點就是不夠完整,但是對於生存分析而言卻是足夠了,而且該文件中患者的生存資訊比XML文件更新的快。
這兩種臨床資訊的下載方式如下
1. TSV/JSON

結果示意如下

2. XML

結果示意如下

此外,還提供了從GDC Legacy Archive資料庫下載臨床資訊的功能,用法如下

在進行生存分析時,更推薦使用TSV/JSON格式的生存資訊,更新的更加及時,具體用法如下

結果如下所示

通過TCGAbiolinks可以方便的提取TCGA中的臨床資訊進行生存分析。