通過GDC Legacy Archive下載TCGA原始數據
- 2019 年 12 月 19 日
- 筆記
在2016年之前,TCGA項目的相關結果文件存放在CGhub和TCGA Data Coordinating Center簡稱DCC提供的TCGA Data Portal中,當時的結果是以hg19或者hg18為參考得到的。
在DCC中,將數據劃分為了3個等級。level 1代筆原始的,未經處理的數據的,比如晶片下機數據;level2 代表處理的中間結果,比如測序深度對應的wig文件;level 3 代表處理完成後的最終結果,比如基因的定量結果。
2016年之後,CGhub和DCC相繼關閉,所有的數據統一遷移到現在用的GDC資料庫,而且通過GDC的pipeline將原有的結果轉換為hg38參考基因組版本。目前在GDC中檢索到的結果都是經過了GDC pipeline處理過後的,從這裡也可以看出,遷移到hg38是一個大的趨勢。
當然目前使用hg19的還是挺多的,如果你需要基於hg19版本的TCGA數據,在GDC中也可以找到。其實GDC中的數據可以分為以下兩個部分
- GDC harmonized data
- GDC legacy archive
在R包TCGAbiolinks
中,介紹了二者的區別,如下圖所示

第一部分就是默認使用的基於hg38版本的數據,第二部分則是對原始的TCGA結果的一個存儲,通過GDC首頁的GDC APPs
, 可以找到CDC Legacy Archive
的入口,鏈接如下
https://portal.gdc.cancer.gov/legacy-archive

在左側的面板可以根據相關屬性對Cases和Files進行篩選,Cases相關的屬性如下

Files相關的屬性如下

數據的下載方式和前面文章中介紹的相同,這裡不贅述,從文件名稱可以看到對應的level, 不同level的文件示意如下
1. level1
通過Data Type
為Raw intensitites
進行篩選,得到晶片的原始數據, 示意如下

2. level2
通過Data Type
為Coverage WIG
進行篩選,得到比對的測序深度數據, 示意如下

3. level3
通過Data Type
為miRNA gene quantification
進行篩選,得到miRNA表達定量數據, 示意如下

通過GDC Legacy Archive, 可以找到基於hg19的數據結果文件,但是由於相關的網站已經關閉,無法確認該數據分析的pipieline等細節資訊,所以需要謹慎使用。