重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分享)

  • 2019 年 10 月 6 日
  • 筆記

前面三期的课程中,我们从GEO基础知识快速锁定目标数据以及R语言基础这三个方面讲解了GEO数据挖掘的背景知识,课后大家也都很积极地找到折耳猫小姐姐和小猎豹,提了很多的问题,最频繁的提问就是:“何时出下一期”、“什么时候教数据分析”,可见大家的学习热情都非常高涨,对GEO数据挖掘非常感兴趣。今天,我们就来讲GEO数据挖掘的终极教程。

众所周知,GEO里面大部分是表达谱数据,而表达谱的数据挖掘涉及众多的分析方法和繁琐的分析步骤,这里给大家做了一个大致的流程图,以便大家有一个整体而全面的认知。简而言之,GEO的数据分析就分为两大步骤:(1)从原始数据基因表达值,这里要经过繁琐的数据前处理过程;(2)从表达值功能分析(差异基因/聚类/功能富集等)。下面我们就按部就班地进行讲解。

1

Step1:从原始数据到表达值

这一步骤是相对比较简单、比较固定的流程,但是其在数据分析过程中的地位至~关~重~要!因为后续所有的高级分析都是建立在表达值的基础上,如果这里出了问题,那么后续所有分析都会产生极大的偏差。在GEO中,所有的data series除了上传原始数据外,还会有一个已经处理好的表达值矩阵,这个是GEO强制要求submitter在上传过程中必须上传的,就存储在series matrix file中。我们在分析数据的时候,可以直接使用这个series matrix file作为表达值进行后续的分析。

2

Step2:从表达值到功能分析

有了表达值以后,我们就可以“畅所欲为”了。常见的后续分析有:差异表达分析、层次聚类,主成分分析等,主要根据我们的分析目的来定。现在,我们来对他们进行逐个讲解。

a. 差异表达分析

这个分析相对较好理解,其实就是两个不同分组之间基因表达值有差异的基因。一般通过两个指标去进行筛选:Fold change(变化倍数,简称FC),以及P value(P值)。常用的FC阈值为2,P value的阈值为0.05或者0.01。

b. 层次聚类分析

这个也是表达谱分析中的常用套路,其理论基础是:基因之间存在共表达,在表达谱上具有相似性的基因或样本可能具有潜在的相关性。在聚类分析中,基因被看作是一个向量,通过元素与元素之间的距离,将不同的元素归类。通过层次聚类,我们把表达谱相近似的基因或者样本富集在一起,然后再对特定的基因进行功能分析,或者对临床样本进行表型的挖掘。

c. 主成分分析

Principle Component Analysis, PCA。属于降维分析的一种,将样本从输入空间通过线性或非线性映射到一个低维空间,减少了后续步骤处理的计算量,当降至三维以下时还可用于可视化技术,从而发挥人在低维空间感知上的优点,发现数据集的空间分布、聚类性质等结构特征。PCA对于分析样本的相关性具有自己独到的优势。

好了,讲了这么多原理,是不是觉得有点头晕脑胀呢,大家可能会想:讲了这么多,还没有教我们怎么做,有什么用?

嗯~~那我就要放干货了,各位请接招吧。为了方便大家对GEO数据进行深入的分析挖掘,我们开发了一款高效、集成的数据分析流程,整合在一个R代码中,大家只需输入数据集的几个相关编号即可。

我给这个代码起了一个非常炫酷的名字:GEO Terminator。可能有点夸张,但是绝对实用。我们要做的就是到GEO找到你要分析的数据,不知道怎么找的,请参见我们的上一篇(GEO数据库挖掘(2)–快速锁定目标数据),输入GSExxx,以及检测平台GPLxxx,自定义一下要分析的样本表型,然后全选(Ctrl+A),运行(Ctrl+Enter)即可。整个代码运行可能需要几分钟到十几分钟的时间,根据你的数据大小和网速快慢而定,最终结果是这样的:

猎豹一出手,便知有没有~。只需输入几个编号,所有分析全自动运行,包括:(1)质控箱线图,(2)差异表达基因,(3)层次聚类热图,(4)差异表达火山图,(5)主成分分析散点图,囊括表达谱数据挖掘的所有基本分析。

相信大家都参加在线上或者线下的诸多收费型培训,这种技术含量超高的“黑科”的价格不菲,现在睁大双眼,握紧水杯,科研猫正式宣布,免费分享此代码,惠及更多被科研折磨的脱毛的猫猫们~~

视频操作

腾讯视频地址:

https://v.qq.com/x/page/i08494wgw5o.html

如果你在操作过程中还是需要问题

点击下方留言板留言

可直接联系到小猎豹师兄哦~