3分鐘了解GO/KEGG功能富集分析

  • 2019 年 10 月 6 日
  • 筆記

「大數據」、「組學」、「數據挖掘」是近幾年來我們經常聽到的辭彙,科研工作中也經常用到二代測序,不管送哪家測序公司進行測序或數據分析,結題報告中都會看到一個標準的分析套路:功能富集分析。

說起功能富集分析,想必大家並不陌生,但要表述一下它的定義,又很少有人能回答的出(組會的時候,是不是經常會被導師這樣Q到呢~~)。

大部分科研工作者,對功能富集分析的最初了解,是從測序公司給我們的分析結果開始的。要知道朦朦朧朧的概念,就會導致對數據結果分析的不透徹,乃至不知如何讓測序數據變得有意義。

功能富集分析是什麼?GO和KEGG為何物?怎麼做功能富集分析才是最準確的?今天,我們就從這幾個問題出發,仔細跟大家講講功能富集分析的由來、定義,並帶領大家進行一個實例操作。

01 何為功能富集分析?

功能富集分析是將基因或者蛋白列表分成多個部分,即將一堆基因進行分類,而這裡的分類標準往往是按照基因的功能來限定的。換句話說,就是把一個基因列表中,具有相似功能的基因放到一起,並和生物學表型關聯起來。

02 何為GO和KEGG?

為了解決將基因按照功能進行分類的問題,科學家們開發了很多基因功能注釋資料庫。這其中比較有名的一個就是Gene Ontology(基因本體論,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書,KEGG)。

其中,GO是基因本體論聯合會建立的一個資料庫,旨在建立一個適用於各種物種的、對基因和蛋白功能進行限定和描述的,並能隨著研究不斷深入而更新的語義辭彙標準。GO注釋分為三大類,分別是:分子生物學功能(Molecular Function,MF)、生物學過程(Biological Process,BP)和細胞學組分(Cellular Components,CC),通過這三個功能大類,對一個基因的功能進行多方面的限定和描述。

而KEGG,大多數聽說過KEGG的人都會把它當做一個基因通路(Pathway)的資料庫,其實人家的功能遠不止於此。KEGG是一個整合了基因組、化學和系統功能資訊的綜合資料庫。KEGG下屬4個大類和17和子資料庫,而其中有一個資料庫叫做KEGG Pathway,專門存儲不同物種中基因通路的資訊,也是用的最多的一個,所以,久而久之,KEGG就被大家當做是一個通路資料庫了。以下圖為例,我們分別用GO的三大分類和KEGG Pathway中的實例向大家展示GO和KEGG在各自資料庫中本來的樣子。

03 如何做功能富集分析?

功能富集分析的演算法有很多種,能夠做功能富集分析的工具也非常多,如果大家想深入了解的話,下面是一個工具列表可供大家學習。

在以上所有的工具中,有一個工具是最為常用,也最為權威,那就是DAVID。DAVID是由美國Leidos 生物醫學研究公司的LHRI團隊開發的一個在線基因注釋及功能富集網站,其網址 https://david.ncifcrf.gov/。為什麼說DAVID它是最權威的呢?看下圖就知道了:僅DAVID這一個軟體就發表了10篇sci文章,其中5分以上7篇,累計影響因子將近85分。其他用DAVID進行分析並發表的文章就更不計其數了。

那麼,怎麼通過DAVID進行功能富集分析,得到美美的結果呢?下節課程將會詳細講解DAVID使用及柱形圖、氣泡圖製作

來源:「科研貓