四個基因的能量代謝模型構建與驗證,輕鬆發4分sci!

  • 2020 年 2 月 20 日
  • 筆記

今天分享一篇2019年6月發表於J Cell Physiol(IF:4.522)的文章,標題是Identification of a four‐gene metabolic signature predicting overall survival for hepatocellular carcinoma. 文章主要是預後模型構建和驗證,富集分析佐證代謝方向,外部數據支持預後相關基因在測試集和驗證集的表現。

PART1

研究思路

• 數據集:TCGA-LIHC(測試集)、GSE14520(驗證集)

• 預後代謝相關模型構建:差異分析->代謝相關差異基因單因素cox->生存相關基因Lasso-penalized Cox->模型誕生

• 測試集和驗證集中繪製ROC曲線、風險曲線、熱圖、生存曲線(模型基本展示標配)

• 結合臨床特徵和預後模型進行單因素、多因素cox分析(看預測模型是否可作為獨立預後因子)

• 在TNM分級下依據預後模型分組後進行生存曲線繪製(說明真的可以作獨立預後)

• 富集分析

• 外部數據支持(基因表達、基因突變、蛋白表達三方面)

PART2

結果

2.1

構建預後模型

以TCGA-LIHC為測試集,進行差異分析,挑出差異基因中的634個代謝相關基因;先用單因素cox回歸模型找到119個生存相關基因,然後用Lasso-penalized Cox分析確定4個基因用於模型構建:risk score = −0.0084 × ACAT1‐0.0413 × GOT2 + 0.1503 × PTDSS2 + 0.1352 × UCK2;

在測試集TCGA-LIHC和驗證集GSE14520進行ROC曲線繪製、風險曲線和熱圖繪製;依據risk score閾值,將樣本分為high risk和low risk 兩組,進行生存曲線的繪製;

2.2

獨立風險因子

基於上面構建的預測模型,在TCGA-LIHC和GSE14520中以risk score閾值為界分為high和low兩組,與其他臨床特徵一起進行單因素cox和多因素cox分析,認為,模型區分得到的high risk和low risk 可以獨立風險因子存在;在I+II和III+IV期樣本中對high risk和low risk分組進行生存曲線繪製,以說明該模型的預測結果可作為獨立預後因子;

2.3

構建列線圖

對測試集和驗證集,基於TNM分級、risk score進行列線圖的繪製;並依據TNM、預測模型、複合模型進行1年、3年、5年ROC和DCA曲線繪製;依據不同模型對應的C-index、曲線下面積、凈獲益的差異,認為複合模型更有優勢。

2.4

富集分析

在TCGA和GEO數據集進行GSEA富集分析,在通路層面展示腫瘤和正常組織的差異;富集到的通路多為代謝相關,其他為腫瘤常見通路(切題很重要啊)。而且,非代謝通路富集集中在high-risk,代謝通路富集集中在low-risk。

2.5

外部數據印證

這裡主要用到了Oncomine、TIMER、HPA、cbioportal數據庫,從基因表達、蛋白表達和基因突變三個方面對預後相關的4個基因在肝癌中的情況進行探索,佐證其在TCGA和GSE14520中的表現。

PART3

結語

文章從代謝相關入手進行模型構建,通過ROC、DCA對模型進行評價,通路富集分析結果點了文章代謝的題,還利用TIMER、Oncomine、HPA、cbioportal外部數據進行論據支持。對預後相關模型感興趣的同學也可以聯繫小編分析哦。 原文獲取方式,後台回復關鍵詞:20200216