不同批次矫正方法的比较分析

2020 年 3 月 27 日
笔记

呐，等你关注都等出蜘蛛网了~

当你的才华还撑不起你的野心时，请潜下心来，脚踏实地，跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了，通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进，一起成长。

文献速递栏目通过简短介绍，扩充知识面，每天关注，希望你也能有所收获！

文章信息

2020年1月16日，新加坡ASTAR 团队于Genome Biology发表题为 "A benchmark of batch-effect correction methods for single-cell RNA sequencing data" 的有关内容。

文章对14种单细胞数据不同批次矫正的方法进行比较，从以下5个场景进行评价：

应用不同技术识别相同细胞类型，
不同的细胞类型，
多个批次，
大数据
模拟数据。

根据作者的结果，Harmony，LIGER和Seurat 3是批次整合的推荐方法。由于运行时间明显缩短，因此建议将Harmony作为尝试的第一种方法，将其他方法作为可行的替代方法。

Introduction

单细胞数据通常是从多个实验中收集的，它们在捕获时间，处理人员，试剂批次，设备甚至技术平台方面都存在差异。这些差异会导致数据出现较大的变化或批次影响，并且可能会混淆数据集成过程中感兴趣的生物学变化。因此，有效的批次效应去除至关重要。
为了应对这些挑战，针对单细胞RNA-seq（scRNA-seq）数据采用了为微阵列数据批量校正开发的工具，例如ComBat和limma。但是，单细胞实验由于基因表达的随机性，测序过程中RNA捕获或扩增失败而遭受“drop out”事件的困扰。
作者测试以下方法：MNN Correct，fastMNN，MultiCCA Seurat 2 ，Seurat 3，MMD-ResNet，Harmony，Scanorama，BBKNN，scGen ，ComBat，LIGER，limma，scMerge和ZINB-WaVE。作者使用十个具有不同特征的数据集，以便在五种不同情况下测试这些方法。这些方案如下：具有相同细胞类型但测序技术不同的批次，包含不同细胞类型的批次，多个批次，具有超过一百万个细胞的大型数据集以及用于差异基因表达分析的模拟数据集。

Results

1.使用五个评估指标对十个数据集的14种方法进行全面测试

2.不同场景下对矫正方法进行评估

相同的细胞类型，不同的技术

作者在使用dataset2进行聚类分析时显示，Seurat 2，Seurat 3，Harmony，fastMNN，MNN Correct，scGen，Scanorama，scMerge和LIGER成功地混合了相同细胞（图2）。除了NK细胞和T细胞的混合外，几乎没有不同细胞类型的混合，这可能归因于这些细胞类型的基因表达相似性。ComBat，limma，MMD-ResNet，ZINB-WaVE和BBKNN能够使批次之间的相似细胞类型接近，但几乎没有混合。

比较iLISI得分，scMerge是批次混合的最佳方法，而LIGER是紧随其后的（p = 0.015）（图3）。所有方法的cLISI得分都很高（1-cLISI> 0.96），这与可视化效果是一致的。对于kBET，Harmony在批次混合中居首位，其次是LIGER和scGen（p <0.001）。使用ASW评估，Seurat 3和Harmony是在批次性能和细胞类型之间取得平衡的最佳方法，尽管所有其他方法在批次混合中也都获得了良好的评分（1-ASWbatch> 0.9）。在批次混合的ARI分数中，所有方法的分数均大于0.9，而Harmony获得的最佳ARI细胞类型分数为0.67（p <0.001），而ARI批次分数为0.97。在大多数指标中，Harmony排名较高，并且毫无疑问，它也是基于排名总和的最佳方法，MNN Correct和Seurat 3并列第二。

在数据集5中，有两种相似的细胞类型，即CD4和CD8，以及单核细胞CD14和FCGR3A。在可视化中，没有一种方法能够产生不同的CD14和FCGR3A或CD4和CD8亚群。FCGR3A细胞始终形成与CD14亚群相连的亚群，而CD8细胞在CD4细胞周围形成亚群（图4）。Seurat 2，Seurat 3，Harmony，fastMNN和MNN Correct将CD4和CD8子类之间的混合最少。scGen，MMD-ResNet和LIGER也将批次均匀混合，但CD4和CD8细胞的混合程度更高。Scanorama，ZINB-WaVE和scMerge不仅混合了CD4和CD8细胞，而且整体批次混合效果较差。最后，ComBat，limma和BBKNN将批次效应明显，但没有将它们混合。

使用cLISI度量，大多数方法在细胞类型纯度方面的得分都高于0.98（图5）。由于该度量标准仅测量局部细胞纯度，因此该度量标准很难捕获特定于细胞类型的亚群边缘的混合。尽管在可视化图中混合了CD4和CD8细胞，这仍然导致cLISI得分较高的方法。就批次混合（iLISI）而言，LIGER位居首位（p <0.001），其次是Seurat 2和Seurat3。计算得出的kBET得分也显示LIGER位居第一，Seurat 2位居第二，而Seurat 3位居第三。用于批量混合（p <0.001）。就ASW指标而言，所有方法的批次混合分数均高于0.95，而Harmony和Seurat 3的细胞类型纯度最高（p = 0.183），其次是MNN校正。与ARI类似，就细胞类型纯度而言，Harmony是最佳方法，其次是fastMNN，Seurat 3和MNN Correct（p <0.13）。这四种方法的ARIbatch分数也很高，大于0.97。使用排名总和，Harmony和Seurat 3总体上是最佳方法，而LIGER位居第三。

细胞类型不同

由于不相似批次中存在两种高度相似的细胞类型，因此数据集1对批次校正算法提出了一个有趣的挑战。可视化图的检查表明，大多数方法都能够将两个批次混合在一起（图6）。limma使两个批次的细胞亚群接近，但没有实现混合，而MMD-ResNet和BBKNN没有使任何普通类型的细胞亚群接近。scGen，Harmony，LIGER和scMerge能够整合第1批和第2批中的双阴性和pDC细胞，同时将CD141和CD1C细胞保持在单独的cluster中，而CD1C，CD141和双阴性细胞的混合最少。MNN Correct，fastMNN，Seurat 3和Seurat 2以及ZINB-WaVE产生了CD141和CD1C细胞的单细胞混合cluster，而ComBat和Scanorama则使CD1C和CD141细胞接近。

就kBET分数而言，LIGER和Seurat 2在批次整合方面是最好的（图7）。对于iLISI指标，LIGER和Seurat 2再次获得最高分。就cLISI而言，除Seurat 2和ZINB-WaVE以外，大多数方法均得分较高（1-cLISI> 0.96）。通过ASW指标，LIGER是细胞纯度和批量混合方面的领先方法（p <0.001）。除ZINB-WaVE和MMD-ResNet之外，其他方法均具有出色的ASW批次集成评分（1-ASWbatch> 0.95）。对于ARI评估，除ZINB-WaVE（就细胞类型纯度而言也是最差的）以外，大多数方法都能实现良好的批次混合。使用指标的等级总和，fastMNN成为最好的方法，LIGER和scMerge分别排名第二和第三。

多批次

此场景测试了具有多个批次的批次校正功能。数据集4包含五批使用四种技术测序的人类胰腺细胞。t-SNE和UMAP图显示Seurat 3，Harmony，scGen和LIGER产生的cluster与来自不同批次的细胞均匀混合（图14）。对于Seurat 2，fastMNN，Scanorama，ZINB-WaVE，scMerge和BBKNN，批次混合甚至更少。除了scGen外，上述方法还以不同程度混合了星状和间充质细胞。尽管在Harmony的t-SNE图中可以看到更好的分离，但LIGER和Harmony也将Delta和γ细胞聚集在一起。MNN Correct，ComBat，limma和MMD-ResNet使来自不同批次的特定于细胞的cluster紧密相连，但没有明显的批次混合。

大数据

数据集8由使用不同技术获得的两批鼠类大脑数据组成（图16）。细胞数量在不同类型的细胞中分布不均，第2批中的大部分细胞由星形胶质细胞，神经元，少突胶质细胞和多突胶质细胞组成。只有LIGER似乎在实现批量混合时保持了相对较好的细胞类型分离。Seurat 3，Harmony，ZINB-WaVE，scGen和MMD-ResNet生产的批次混合均匀程度相对较低。ComBat，limma，Scanorama和BBKNN的性能甚至更差，几乎没有甚至没有批次混合。采用LISI指标，所有方法均保持了较高的局部细胞类型纯度，并具有良好的cLISI评分（1-cLISI> 0.8）（图17）。在可以完全在大型数据集上运行的方法中，LIGER和Seurat 2在这些方法中获得了最高的iLISI得分（p值= 0.057），其次是Harmony和Seurat 3（p <0.001）。在LISI度量标准中，我们可以看到LIGER，Harmony和Seurat 3之间在批次整合和细胞类型纯度之间进行了权衡。令人惊讶的是，kBET度量标准显示出截然不同的结果，这些方法均未获得良好的评分。相反，fastMNN，scMerge和MNN Correct是kBET的前三种方法。ASW指标也描绘了完全不同的图景，ZINB-WaVE是批次混合中最好的，尽管大多数方法也显示出较高的批次混合分数（1-ASWbatch> 0.93），而Harmony产生的细胞类型纯度最高（p <0.001））。ARI结果也有所不同，大多数方法还能够产生大于0.95的高批次混合分数（limma除外）。总的来说，scGen是最好的方法，是批量混合的最佳方法（p <0.001），并且与LIGER结合可获得的细胞类型纯度（p = 0.34）。就ARI细胞类型的纯度而言，scGen和LIGER之后是Harmony。将所有指标的排名与排名总和相结合，Seurat 3排名第一，其次是scGen和Seurat 2。

模拟数据

如图20c所示，在所有基因情况下，上调基因的MNN Correct，ComBat和limma的F分数中位数分别为0.73、0.71和0.76，而上调基因的中值F分数为0.94、0.91和0.94。HVG。在统计上，这些方法之间没有性能差异。在所有基因的情况下，对于下调的基因，我们在F分数结果中也看到了类似的趋势。但是，如果仅考虑下调的HVG，limma不能消除批次效应，导致F得分低于MNN Correct和ComBat，具有统计学意义。ZINB-WaVE和scMerge的中位F得分上调基因（所有基因）分别为0.71和0.70，上调基因（HVGs）分别为0.96和0.9，无统计学差异。最后，在Seurat 3，scGen和Scanorama的情况下，上调基因（所有基因）的F分数中位数分别为0.42、0.29和0.17，而上调基因（HVG）的F分数中位数为0.92、0.88和0.22。统计测试显示，Seurat 3和scGen之间无显着差异，但Seurat 3和Scanorama的结果之间存在显着差异（Wilcoxon p值<0.05），scGen和Scanorama的结果之间存在显着差异（Wilcoxon p值<0.01）。特别是，Scanorama的F得分低于原始得分，这意味着该方法消除了“第1组”和“第2组”之间大多数细胞类型的变异。这表明批处理效果消除方法可以有效地消除模拟数据的数据批之间的技术差异。根据F分数，MNN Correct，ZINB-WaVE，ComBat和scMerge是表现最好的方法。

参考文献：

Tran HTN, Ang KS, Chevrier M, Zhang X, Lee NYS, Goh M, Chen J. A benchmark of batch-effect correction methods for single-cell RNA sequencing data. Genome Biol.2020 Jan 16;21(1):12. doi: 10.1186