【科研猫·绘图】GSEA分析全攻略,带视频分享

  • 2019 年 10 月 7 日
  • 筆記

Gene Set Enrichment Analysis (GSEA/基因集富集分析), 是一种生物信息学的计算方法,用于确定是否存在这样一个“基因集”,能在两个生物学状态中显示出显著的一致性的差异。表达谱数据里的基因数目众多,我们需要对基因进行功能注释,看哪些基因是属于同一通路,以及该通路的上调、下调情况,这就是富集分析了。

比如这篇2019年4月份发表 Cancer cell (PMID 30991027)的文章,其中有一张主图,就是通过GSEA分析对 RNAseq 的数据进行解读。

在这张图中,图A为经典的GSEA富集图,图B为GSEA得到的通路上调或者下调的韦恩图,C和D是GSEA分析的NES值,而E这是GSEA通路基因表达值

也就是说,只需要 2 (实验条件) * 3(重复)个 RNAseq 的样本,我们就可以做出一张 Cancer Cell 的主图了,YY一下,有没有很激动呢~

做转录组分析时,大家通常会先筛选差异表达基因,然后再对这些差异表达基因进行功能富集分析。可能不少小伙伴会发现这种情况,就是因为差异基因过少而富集目标/相关的功能/通路,或者差异表达基因虽然很多,但是没有命中到感兴趣的通路或GO功能。这种情况下,就可以试试GSEA分析。

这种先做差异基因筛选的方式,可能由于筛选参数的设置不同,导致一些关键信息的“漏网”。

GSEA无需先做差异分析,会保留更多更全面的关键信息。可以帮助我们找到那些差异不是很明显但基因差异趋势很一致的功能基因集。

当然,这两者没有说哪个更好,实际应用中能解决问题即可。

现在开始今天的课程,咱们一起从头开始学GSEA吧!

第一步:GSEA 软件的下载

我们要下载一个GSEA软件,可以直接通过GSEA的官网进行下载。

http://software.broadinstitute.org/gsea/index.jsp

然后我们点击官网上的下载界面,Downloads 那个页面: http://software.broadinstitute.org/gsea/downloads.jsp

根据大家电脑系统(Mac, Windows, Linux)的不同,选择合适的GSEA软件,双击即可安装。

第二步:GSEA的运行

GSEA的输入文件有两个,分别是 gct文件 cls文件。很多同学在入门的时候,都会在卡在准备文件这一步。所以咱们今天的教程,是直接教大家如何从表达谱,制作GSEA分析输入文件的。

我们的表达谱数据长这样~

数据共有7列,第一列为基因名,第二至七列为样本表达,分别是三个 Case (Case1, Case2, Case3) 和三个 Control (Control1, Control2, Control3)。我们直接通过 Excel 制作 gct文件 和 cls文件。

其中,gct文件包含表达谱数据。

cls文件包含数据比对条件。

第三步:GSEA的运行

最终生成的结果,就是我们 Case 和 Control 两组样本相比,差异通路的结果,比如所有通路上调或者下调情况。

或者单独通路的经典GSEA富集图。

本期干货

GSEA完整教学视频&测试数据

文章详情:“科研猫”公众号

科研猫原创系列,未经许可严禁转载,版权事宜由上海辰明律师事务所提供法务支持。