四個基因的能量代謝模型構建與驗證,輕鬆發4分sci!
- 2020 年 2 月 20 日
- 筆記

今天分享一篇2019年6月發表於J Cell Physiol(IF:4.522)的文章,標題是Identification of a four‐gene metabolic signature predicting overall survival for hepatocellular carcinoma. 文章主要是預後模型構建和驗證,富集分析佐證代謝方向,外部數據支持預後相關基因在測試集和驗證集的表現。
PART1
研究思路
• 數據集:TCGA-LIHC(測試集)、GSE14520(驗證集)
• 預後代謝相關模型構建:差異分析->代謝相關差異基因單因素cox->生存相關基因Lasso-penalized Cox->模型誕生
• 測試集和驗證集中繪製ROC曲線、風險曲線、熱圖、生存曲線(模型基本展示標配)
• 結合臨床特徵和預後模型進行單因素、多因素cox分析(看預測模型是否可作為獨立預後因子)
• 在TNM分級下依據預後模型分組後進行生存曲線繪製(說明真的可以作獨立預後)
• 富集分析
• 外部數據支持(基因表達、基因突變、蛋白表達三方面)
PART2
結果
2.1
構建預後模型
以TCGA-LIHC為測試集,進行差異分析,挑出差異基因中的634個代謝相關基因;先用單因素cox回歸模型找到119個生存相關基因,然後用Lasso-penalized Cox分析確定4個基因用於模型構建:risk score = −0.0084 × ACAT1‐0.0413 × GOT2 + 0.1503 × PTDSS2 + 0.1352 × UCK2;
在測試集TCGA-LIHC和驗證集GSE14520進行ROC曲線繪製、風險曲線和熱圖繪製;依據risk score閾值,將樣本分為high risk和low risk 兩組,進行生存曲線的繪製;

2.2
獨立風險因子
基於上面構建的預測模型,在TCGA-LIHC和GSE14520中以risk score閾值為界分為high和low兩組,與其他臨床特徵一起進行單因素cox和多因素cox分析,認為,模型區分得到的high risk和low risk 可以獨立風險因子存在;在I+II和III+IV期樣本中對high risk和low risk分組進行生存曲線繪製,以說明該模型的預測結果可作為獨立預後因子;


2.3
構建列線圖
對測試集和驗證集,基於TNM分級、risk score進行列線圖的繪製;並依據TNM、預測模型、複合模型進行1年、3年、5年ROC和DCA曲線繪製;依據不同模型對應的C-index、曲線下面積、凈獲益的差異,認為複合模型更有優勢。

2.4
富集分析
在TCGA和GEO數據集進行GSEA富集分析,在通路層面展示腫瘤和正常組織的差異;富集到的通路多為代謝相關,其他為腫瘤常見通路(切題很重要啊)。而且,非代謝通路富集集中在high-risk,代謝通路富集集中在low-risk。

2.5
外部數據印證
這裡主要用到了Oncomine、TIMER、HPA、cbioportal數據庫,從基因表達、蛋白表達和基因突變三個方面對預後相關的4個基因在肝癌中的情況進行探索,佐證其在TCGA和GSE14520中的表現。


PART3
結語
文章從代謝相關入手進行模型構建,通過ROC、DCA對模型進行評價,通路富集分析結果點了文章代謝的題,還利用TIMER、Oncomine、HPA、cbioportal外部數據進行論據支持。對預後相關模型感興趣的同學也可以聯繫小編分析哦。 原文獲取方式,後台回復關鍵詞:20200216