3分钟了解GO/KEGG功能富集分析

  • 2019 年 10 月 6 日
  • 笔记

“大数据”、“组学”、“数据挖掘”是近几年来我们经常听到的词汇,科研工作中也经常用到二代测序,不管送哪家测序公司进行测序或数据分析,结题报告中都会看到一个标准的分析套路:功能富集分析。

说起功能富集分析,想必大家并不陌生,但要表述一下它的定义,又很少有人能回答的出(组会的时候,是不是经常会被导师这样Q到呢~~)。

大部分科研工作者,对功能富集分析的最初了解,是从测序公司给我们的分析结果开始的。要知道朦朦胧胧的概念,就会导致对数据结果分析的不透彻,乃至不知如何让测序数据变得有意义。

功能富集分析是什么?GO和KEGG为何物?怎么做功能富集分析才是最准确的?今天,我们就从这几个问题出发,仔细跟大家讲讲功能富集分析的由来、定义,并带领大家进行一个实例操作。

01 何为功能富集分析?

功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。

02 何为GO和KEGG?

为了解决将基因按照功能进行分类的问题,科学家们开发了很多基因功能注释数据库。这其中比较有名的一个就是Gene Ontology(基因本体论,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书,KEGG)。

其中,GO是基因本体论联合会建立的一个数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO注释分为三大类,分别是:分子生物学功能(Molecular Function,MF)、生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。

而KEGG,大多数听说过KEGG的人都会把它当做一个基因通路(Pathway)的数据库,其实人家的功能远不止于此。KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17和子数据库,而其中有一个数据库叫做KEGG Pathway,专门存储不同物种中基因通路的信息,也是用的最多的一个,所以,久而久之,KEGG就被大家当做是一个通路数据库了。以下图为例,我们分别用GO的三大分类和KEGG Pathway中的实例向大家展示GO和KEGG在各自数据库中本来的样子。

03 如何做功能富集分析?

功能富集分析的算法有很多种,能够做功能富集分析的工具也非常多,如果大家想深入了解的话,下面是一个工具列表可供大家学习。

在以上所有的工具中,有一个工具是最为常用,也最为权威,那就是DAVID。DAVID是由美国Leidos 生物医学研究公司的LHRI团队开发的一个在线基因注释及功能富集网站,其网址 https://david.ncifcrf.gov/。为什么说DAVID它是最权威的呢?看下图就知道了:仅DAVID这一个软件就发表了10篇sci文章,其中5分以上7篇,累计影响因子将近85分。其他用DAVID进行分析并发表的文章就更不计其数了。

那么,怎么通过DAVID进行功能富集分析,得到美美的结果呢?下节课程将会详细讲解DAVID使用及柱形图、气泡图制作

来源:“科研猫