使用TCGAbiolinks分析TCGA中的表達譜數據
- 2019 年 12 月 19 日
- 筆記
對於轉錄組數據而言,差異分析和富集分析是最核心的分析內容之一,通過TCGAbiolinks可以輕鬆實現TCGA表達譜數據的下載,差異分析,富集分析等功能,以乳腺癌的基因表達譜為例,分析過程如下
1. 下載原始數據
由於TCGA中乳腺癌的樣本很多,所以只挑選了部分樣本來測試,下載的過程如下

2. 差異分析
詳細步驟如下
- 對數據進行預處理,根據樣本間的斯皮爾曼相關係數去除相關性較低的樣本
- 歸一化,調用了EDASeq中的歸一化算法
- 篩選基因,根據表達量的均值進行篩選
- 差異分析,調用了edgeR中的差異算法
代碼如下

3. 富集分析
代碼如下

可視化的結果如下所示

GO的3大類別加上kegg pathway共4個類別的數據,對應4張柱狀圖,每個柱狀圖展示的是FDR值最顯著的top10個條目,橫坐標我-log10(FDR), 散點代表的是GeneRatio, 也稱之為enrich factor, 代表富集到該通路下的差異基因個數占該通路下所有基因總數的比例。