四个基因的能量代谢模型构建与验证,轻松发4分sci!
- 2020 年 2 月 20 日
- 笔记

今天分享一篇2019年6月发表于J Cell Physiol(IF:4.522)的文章,标题是Identification of a four‐gene metabolic signature predicting overall survival for hepatocellular carcinoma. 文章主要是预后模型构建和验证,富集分析佐证代谢方向,外部数据支持预后相关基因在测试集和验证集的表现。
PART1
研究思路
• 数据集:TCGA-LIHC(测试集)、GSE14520(验证集)
• 预后代谢相关模型构建:差异分析->代谢相关差异基因单因素cox->生存相关基因Lasso-penalized Cox->模型诞生
• 测试集和验证集中绘制ROC曲线、风险曲线、热图、生存曲线(模型基本展示标配)
• 结合临床特征和预后模型进行单因素、多因素cox分析(看预测模型是否可作为独立预后因子)
• 在TNM分级下依据预后模型分组后进行生存曲线绘制(说明真的可以作独立预后)
• 富集分析
• 外部数据支持(基因表达、基因突变、蛋白表达三方面)
PART2
结果
2.1
构建预后模型
以TCGA-LIHC为测试集,进行差异分析,挑出差异基因中的634个代谢相关基因;先用单因素cox回归模型找到119个生存相关基因,然后用Lasso-penalized Cox分析确定4个基因用于模型构建:risk score = −0.0084 × ACAT1‐0.0413 × GOT2 + 0.1503 × PTDSS2 + 0.1352 × UCK2;
在测试集TCGA-LIHC和验证集GSE14520进行ROC曲线绘制、风险曲线和热图绘制;依据risk score阈值,将样本分为high risk和low risk 两组,进行生存曲线的绘制;

2.2
独立风险因子
基于上面构建的预测模型,在TCGA-LIHC和GSE14520中以risk score阈值为界分为high和low两组,与其他临床特征一起进行单因素cox和多因素cox分析,认为,模型区分得到的high risk和low risk 可以独立风险因子存在;在I+II和III+IV期样本中对high risk和low risk分组进行生存曲线绘制,以说明该模型的预测结果可作为独立预后因子;


2.3
构建列线图
对测试集和验证集,基于TNM分级、risk score进行列线图的绘制;并依据TNM、预测模型、复合模型进行1年、3年、5年ROC和DCA曲线绘制;依据不同模型对应的C-index、曲线下面积、净获益的差异,认为复合模型更有优势。

2.4
富集分析
在TCGA和GEO数据集进行GSEA富集分析,在通路层面展示肿瘤和正常组织的差异;富集到的通路多为代谢相关,其他为肿瘤常见通路(切题很重要啊)。而且,非代谢通路富集集中在high-risk,代谢通路富集集中在low-risk。

2.5
外部数据印证
这里主要用到了Oncomine、TIMER、HPA、cbioportal数据库,从基因表达、蛋白表达和基因突变三个方面对预后相关的4个基因在肝癌中的情况进行探索,佐证其在TCGA和GSE14520中的表现。


PART3
结语
文章从代谢相关入手进行模型构建,通过ROC、DCA对模型进行评价,通路富集分析结果点了文章代谢的题,还利用TIMER、Oncomine、HPA、cbioportal外部数据进行论据支持。对预后相关模型感兴趣的同学也可以联系小编分析哦。 原文获取方式,后台回复关键词:20200216