深度分析:生信+免疫+COX模型,突破5分不在话下

  • 2019 年 12 月 17 日
  • 筆記

今天分享的是今年9月发表在Aging(IF=5.5)上的一篇文章,研究透明细胞肾细胞癌微环境中新型标志物的预后价值和免疫浸润情况。文章主题仍是生信分析结合免疫,但内容是以生信分析做基础,挑选出枢纽基因后结合临床病理特征进行多因素COX回归分析,构建了回归模型,最后进行枢纽基因免疫浸润的分析。

这是文章的总体思路,下面我们按照具体步骤拆解一下文章套路。

免疫相关评分与临床病理特征、预后间的关系

免疫相关评分主要包括三个方面,即immune score 免疫细胞打分, stromal score 基质细胞打分, estimate score 综合打分。作者首先分析了癌症分级、分期与ESTIMATE评分之间的联系,显示两者间存在关联,且肿瘤的最快进展(G4、Ⅳ期)表现为最高的ESTIMATE评分(图1 A B)。接下来按评分分为高低两组分别进行预后分析,三种评分中均显示低评分组预后较好(图1 C D E)。

图 1

差异表达基因的筛选

这一步是基于免疫评分和基质评分筛选差异表达基因,首先从TCGA数据库中下载原始数据,基于免疫评分筛选出162个高表达基因和747个低表达基因,基于基质评分筛选出261个高表达基因和1198个低表达基因。最后通过取交集确定77个高表达基因和787个低表达基因作为最终的差异表达基因(图2 C D)。随后,作者用共计864个差异表达基因进行了功能富集分析(图2 E),又对77个高表达基因进行聚类并绘制了热图(图 2 F)。

图2

PPI(蛋白-蛋白互作网络)构建

作者基于上述过程中筛选出的77个上调差异表达基因构建了PPI网络,并对这些基因进行了功能富集分析(图3B),随后运用模块化分析筛选出四个重要模块,其中最显著的模块包含6个基因AGPAT9, AQP7, HMGCS2, KLF15, MLXIPL, PPARGC1A,这些基因被认为是枢纽基因(图3A)。

图 3

枢纽基因的表达量、预后和COX回归分析

随后,基于TCGA数据库中基因表达量数据和临床信息数据,作者进行了枢纽基因的表达量、预后和COX回归分析。表达量和预后分析显示AGPAT9, AQP7, HMGCS2, KLF15, PPARGC1A在肿瘤中低表达且其低表达预示不良预后,MLXIPL在肿瘤中高表达且其高表达也预示不良预后(图 4)。经过单因素和多因素COX分析,最终肿瘤有远处转移(pM stage)、较高的分级(ISUP grade)、MLXIPL高表达是预后的危险因素,PPARGC1A高表达为保护因素(图 5)。

图 4

图 5

RT-qPCR验证MLXIPL和PPARGC1A的表达量和预后情况

随后,作者在自己的380对配对样本验证了MLXIPL和PPARGC1A的表达量和预后情况,结果显示MLXIPL在肿瘤中高表达且其高表达在无进展生存期和总生存期中均预示着不良预后,PPARGC1A在肿瘤中低表达且其低表达在无进展生存期和总生存期中均预示着不良预后(图 6)。

图 6

多因素COX回归分析构建模型和ROC曲线分析

接下来利用上述380对配对样本的相关信息,通过多因素COX回归分析构建预测模型,共有6个参数进入方程。针对MLXIPL和PPARGC1A分别构建了无进展生存期(PFS)和总生存期(OS)的模型。

上述方程每一项前面数字就是多因素分析中的HR值,后面则是进入该方程的临床病理学参数(图 7)。

后面接着进行了ROC曲线分析以验证方程的效能,作者首先在自己的样本中进行验证,后续又用外部数据集TCGA中数据进行验证,两次验证AUC曲线下面积均大于0.7,证明文中构建的模型分类效能较好(图 8)。

图 7

图 8

MLXIPL和PPARGC1A的免疫浸润分析

通过TIMER网站进行MLXIPL和PPARGC1A的免疫细胞浸润相关分析,结果显示MLXIPL和PPARGC1A的表达和肿瘤纯度相关,MLXIPL和PPARGC1A表达升高与B细胞、CD8+ T细胞、巨噬细胞、中性白细胞和树突状细胞浸润关系密切,并使免疫浸润水平普遍下降(图 9)。后续利用GEPIA网站可以进行更为细致的相关性分析。

图 9

至此这篇文章的分析就结束了,分析的前三步就是常规的生信加免疫套路,先分析免疫相关评分与临床病理特征间的联系,随后筛选差异表达基因,进行功能富集并构建PPI网络。

其实仅仅这三步的分析也可以组合成一篇稍微低阶的SCI文章了,从第四步开始筛选出枢纽基因进行预后分析、COX分析、构建模型、绘制ROC曲线、免疫浸润相关性分析才是这篇文章层次上升的重点,也是我们可以借鉴的地方。例如前期只做了基础的生信分析筛出来枢纽基因,后续可以从第四步继续分析以增加分析的深度。当然,如果暂时自己没有足够的样本进行分析,也可以直接从现有数据库下载数据,构建出模型后选取其他数据库中信息进行外部验证。

如果你有生信需求,也可以联系小编分析哦!