使用TCGAbiolinks进行生存分析

  • 2019 年 12 月 19 日
  • 筆記

TCGAbiolinks不仅提供了数据的下载功能,还提供了各种各样的下游分析功能,生存分析是TCGA数据最经典的应用场景之一,通过TCGAbiolinks可以轻松实现生存分析。

在进行生存分析之前,首先要得到患者的临床数据。在之前的文章中介绍了通过GDC来下载临床数据的方法,在GDC中临床数据有两种形式

  1. XML 每个样本的所有临床信息以XML的格式进行存储,该文件中包含的临床信息是最为全面的
  2. TSV/JSON 将需要下载的数据添加到GDCcart之后,可以选择下载tsv或者json格式的临床信息,这种方式得到的信息只是XML中信息的一个子集,缺点就是不够完整,但是对于生存分析而言却是足够了,而且该文件中患者的生存信息比XML文件更新的快。

这两种临床信息的下载方式如下

1. TSV/JSON

结果示意如下

2. XML

结果示意如下

此外,还提供了从GDC Legacy Archive数据库下载临床信息的功能,用法如下

在进行生存分析时,更推荐使用TSV/JSON格式的生存信息,更新的更加及时,具体用法如下

结果如下所示

通过TCGAbiolinks可以方便的提取TCGA中的临床信息进行生存分析。