【科研貓·繪圖】GSEA分析全攻略,帶影片分享
- 2019 年 10 月 7 日
- 筆記
Gene Set Enrichment Analysis (GSEA/基因集富集分析), 是一種生物資訊學的計算方法,用於確定是否存在這樣一個「基因集」,能在兩個生物學狀態中顯示出顯著的一致性的差異。表達譜數據里的基因數目眾多,我們需要對基因進行功能注釋,看哪些基因是屬於同一通路,以及該通路的上調、下調情況,這就是富集分析了。
比如這篇2019年4月份發表 Cancer cell (PMID 30991027)的文章,其中有一張主圖,就是通過GSEA分析對 RNAseq 的數據進行解讀。

在這張圖中,圖A為經典的GSEA富集圖,圖B為GSEA得到的通路上調或者下調的韋恩圖,C和D是GSEA分析的NES值,而E這是GSEA通路基因表達值。
也就是說,只需要 2 (實驗條件) * 3(重複)個 RNAseq 的樣本,我們就可以做出一張 Cancer Cell 的主圖了,YY一下,有沒有很激動呢~
做轉錄組分析時,大家通常會先篩選差異表達基因,然後再對這些差異表達基因進行功能富集分析。可能不少小夥伴會發現這種情況,就是因為差異基因過少而富集目標/相關的功能/通路,或者差異表達基因雖然很多,但是沒有命中到感興趣的通路或GO功能。這種情況下,就可以試試GSEA分析。
這種先做差異基因篩選的方式,可能由於篩選參數的設置不同,導致一些關鍵資訊的「漏網」。
GSEA無需先做差異分析,會保留更多更全面的關鍵資訊。可以幫助我們找到那些差異不是很明顯但基因差異趨勢很一致的功能基因集。
當然,這兩者沒有說哪個更好,實際應用中能解決問題即可。
現在開始今天的課程,咱們一起從頭開始學GSEA吧!
第一步:GSEA 軟體的下載
我們要下載一個GSEA軟體,可以直接通過GSEA的官網進行下載。
http://software.broadinstitute.org/gsea/index.jsp

然後我們點擊官網上的下載介面,Downloads 那個頁面: http://software.broadinstitute.org/gsea/downloads.jsp

根據大家電腦系統(Mac, Windows, Linux)的不同,選擇合適的GSEA軟體,雙擊即可安裝。
第二步:GSEA的運行
GSEA的輸入文件有兩個,分別是 gct文件 和 cls文件。很多同學在入門的時候,都會在卡在準備文件這一步。所以咱們今天的教程,是直接教大家如何從表達譜,製作GSEA分析輸入文件的。
我們的表達譜數據長這樣~

數據共有7列,第一列為基因名,第二至七列為樣本表達,分別是三個 Case (Case1, Case2, Case3) 和三個 Control (Control1, Control2, Control3)。我們直接通過 Excel 製作 gct文件 和 cls文件。
其中,gct文件包含表達譜數據。

cls文件包含數據比對條件。

第三步:GSEA的運行

最終生成的結果,就是我們 Case 和 Control 兩組樣本相比,差異通路的結果,比如所有通路上調或者下調情況。

或者單獨通路的經典GSEA富集圖。
本期乾貨
GSEA完整教學影片&測試數據
文章詳情:「科研貓」公眾號
科研貓原創系列,未經許可嚴禁轉載,版權事宜由上海辰明律師事務所提供法務支援。