零程式碼下載TCGA資料庫第一期
- 2019 年 10 月 7 日
- 筆記
TCGA資料庫目前是科研中最常用的資料庫之一,其中儲存著多種疾病的各組學的數據,藉助該資料庫,幫助了很多研究生們發表了自己的文章,達到了畢業條件。但是,如果你是剛入門的新手,不用擔心,跟著我們的系列推文,完成TCGA資料庫的認識與下載,開啟TCGA資料庫的大門。今天我們就來學習一下TCGA資料庫中癌症的RNAseq數據下載。
1.TCGA資料庫簡介
TCGA資料庫全稱為The Cancer Genome Atlas,如名所示,它主要儲存關於各類腫瘤的一個基本資訊,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等資訊,它是目前為止我們可以獲得的公開資料庫裡面數據相對全面的一個,在各個領域得到了廣泛的應用,為腫瘤基礎醫學和轉化醫學研究者提供了海量的基因組數據和與其關聯的臨床數據,這為挖掘有意義的基因組變化和發現影響腫瘤起始、發展、分化、轉移等生物學機制提供了海量數據基礎。
2.TCGA網址
https://portal.gdc.cancer.gov/
首頁模樣如下:

3. 點擊 Repository,進入數據存儲地,就會出現下面這個介面

4. 點擊 Case,選擇疾病類型,就會出現下面這個介面,用於挑選各類癌症,比如我們選擇喉癌(Larynx),在其前面打鉤即可。


5.接著點擊 File,選擇文件類型,就會出現下面這個介面,用於選擇需要下載文件的數據類型,因為我們需要下載的是RNAseq的數據,所以需要在Transcriptome Profiling,在其前面打鉤即可。

6.在Data Type選擇Gene Expression Quantification,在Experimental Strategy上由於只有一個選項,所以我們不用選擇也可以,主要看到有三種類型,分別是counts,FPKM和FPKM-UQ,分別表示counts數和兩種歸一化後的值,一般推薦下載counts數據。

7. 點擊counts之後,我們可以看到每一步操作都會記錄在裡面,如下,也可以看到數據大小是31兆。

8. 點擊Add All Files to Cart,然後就會看到箭頭所指的地方,變為相應的樣本數,接著點擊cart,如下:


9. 點擊download,下載cart即可

這樣你就完成了第一步基於網頁版tcga數據的下載。
10.下載的數據模樣

下載的結果是一個壓縮包,我們解壓之後就會發現,每個文件存儲的為一個樣本。

OK,今天的數據下載先講到這,下期再見。