R语言肿瘤纯度评估二

  • 2019 年 10 月 7 日
  • 筆記

我们前面介绍了肿瘤中如何进行反卷积纯化肿瘤组织表达矩阵,今天我们介绍一个作为R包DeMixT子功能另一个R包estimate(Estimation of STromal and Immune cells in MAlignant Tumor tissues usingExpression data)。

它主要的功能是在不借助参考数据的情况下可以对肿瘤组织中的基质以及免疫侵润进行打分。接下来我们介绍下这个包是怎么使用的:

首先就是包的安装,我们需要用到下面的安装代码以及安装源:

  library(utils)  rforge <-"http://r-forge.r-project.org"  install.packages("estimate",repos=rforge, dependencies=TRUE)

安装完之后就是肿瘤纯度的计算了,在这里我们用到的是包自带的卵巢癌的数据。首先是数据的载入:

library(estimate)  OvarianCancerExpr <-system.file("extdata", "sample_input.txt",package="estimate")  read.table(OvarianCancerExpr)[1:4,1:4]

接下来就是对基因的统一化:

filterCommonGenes(input.f=OvarianCancerExpr,output.f="OV_10412genes.gct",                    id="GeneSymbol")

结果中会展示我们归一化后的基因数目。

接下来就是评估打分函数的引入,再次多说一句:由于不同的平台基因数目的不一致,所以我们需要选择对应的平台进行数据评估,其中包括了以下参数:platform = c("affymetrix", "agilent", "illumina"),实例如下:



estimateScore(input.ds ="OV_10412genes.gct",output.ds="OV_estimate_score.gct",                platform="affymetrix")#platform默认是affymetrix。

至此我们得到了我们想要的评估分数,我们还可以对其中的某个或者所有的样本进行可视化,我们就以一个样本为例:

plotPurity(scores="OV_estimate_score.gct",samples="s516", platform="affymetrix")#默认就是对所有样本绘制图形,图形将保存至工作目录的estimated_purity_plots文件夹。

上图展示的就是评估分数和肿瘤纯度的一个一一对应的散点图。也就是打分越小纯度越高。

当然我们可以直接对我们最后的结果进行读出并提取我们想要的数据:

scores=read.table("OV_estimate_score.gct",skip= 2,header = T)  head(scores)

图中我们可以看到,数据分为四行分别是基质,免疫,综合打分以及肿瘤纯度。其纯度方程式我们也找到了,其实很简单就是余旋函数: