不同批次矯正方法的比較分析

  • 2020 年 3 月 27 日
  • 筆記

吶,等你關注都等出蜘蛛網了~

當你的才華還撐不起你的野心時,請潛下心來,腳踏實地,跟着我們慢慢進步。不知不覺在單細胞轉錄組領域做知識分析也快兩年了,通過文獻速遞這個欄目很幸運聚集了一些小夥伴攜手共進,一起成長。

文獻速遞欄目通過簡短介紹,擴充知識面,每天關注,希望你也能有所收穫!

文章信息

2020年1月16日,新加坡ASTAR 團隊於Genome Biology發表題為 "A benchmark of batch-effect correction methods for single-cell RNA sequencing data" 的有關內容。

文章對14種單細胞數據不同批次矯正的方法進行比較,從以下5個場景進行評價:

  • 應用不同技術識別相同細胞類型,
  • 不同的細胞類型,
  • 多個批次,
  • 大數據
  • 模擬數據。

根據作者的結果,Harmony,LIGER和Seurat 3是批次整合的推薦方法。 由於運行時間明顯縮短,因此建議將Harmony作為嘗試的第一種方法,將其他方法作為可行的替代方法。

Introduction

  1. 單細胞數據通常是從多個實驗中收集的,它們在捕獲時間,處理人員,試劑批次,設備甚至技術平台方面都存在差異。這些差異會導致數據出現較大的變化或批次影響,並且可能會混淆數據集成過程中感興趣的生物學變化。因此,有效的批次效應去除至關重要。
  2. 為了應對這些挑戰,針對單細胞RNA-seq(scRNA-seq)數據採用了為微陣列數據批量校正開發的工具,例如ComBat和limma。但是,單細胞實驗由於基因表達的隨機性,測序過程中RNA捕獲或擴增失敗而遭受「drop out」事件的困擾。
  3. 作者測試以下方法:MNN Correct,fastMNN,MultiCCA Seurat 2 ,Seurat 3,MMD-ResNet,Harmony,Scanorama,BBKNN,scGen ,ComBat,LIGER,limma,scMerge和ZINB-WaVE。作者使用十個具有不同特徵的數據集,以便在五種不同情況下測試這些方法。這些方案如下:具有相同細胞類型但測序技術不同的批次,包含不同細胞類型的批次,多個批次,具有超過一百萬個細胞的大型數據集以及用於差異基因表達分析的模擬數據集。

Results

1.使用五個評估指標對十個數據集的14種方法進行全面測試

2.不同場景下對矯正方法進行評估

1

相同的細胞類型,不同的技術

作者在使用dataset2進行聚類分析時顯示,Seurat 2,Seurat 3,Harmony,fastMNN,MNN Correct,scGen,Scanorama,scMerge和LIGER成功地混合了相同細胞(圖2)。除了NK細胞和T細胞的混合外,幾乎沒有不同細胞類型的混合,這可能歸因於這些細胞類型的基因表達相似性。ComBat,limma,MMD-ResNet,ZINB-WaVE和BBKNN能夠使批次之間的相似細胞類型接近,但幾乎沒有混合。

比較iLISI得分,scMerge是批次混合的最佳方法,而LIGER是緊隨其後的(p = 0.015)(圖3)。所有方法的cLISI得分都很高(1-cLISI> 0.96),這與可視化效果是一致的。對於kBET,Harmony在批次混合中居首位,其次是LIGER和scGen(p <0.001)。使用ASW評估,Seurat 3和Harmony是在批次性能和細胞類型之間取得平衡的最佳方法,儘管所有其他方法在批次混合中也都獲得了良好的評分(1-ASWbatch> 0.9)。在批次混合的ARI分數中,所有方法的分數均大於0.9,而Harmony獲得的最佳ARI細胞類型分數為0.67(p <0.001),而ARI批次分數為0.97。在大多數指標中,Harmony排名較高,並且毫無疑問,它也是基於排名總和的最佳方法,MNN Correct和Seurat 3並列第二。

在數據集5中,有兩種相似的細胞類型,即CD4和CD8,以及單核細胞CD14和FCGR3A。在可視化中,沒有一種方法能夠產生不同的CD14和FCGR3A或CD4和CD8亞群。FCGR3A細胞始終形成與CD14亞群相連的亞群,而CD8細胞在CD4細胞周圍形成亞群(圖4)。Seurat 2,Seurat 3,Harmony,fastMNN和MNN Correct將CD4和CD8子類之間的混合最少。scGen,MMD-ResNet和LIGER也將批次均勻混合,但CD4和CD8細胞的混合程度更高。Scanorama,ZINB-WaVE和scMerge不僅混合了CD4和CD8細胞,而且整體批次混合效果較差。最後,ComBat,limma和BBKNN將批次效應明顯,但沒有將它們混合。

使用cLISI度量,大多數方法在細胞類型純度方面的得分都高於0.98(圖5)。由於該度量標準僅測量局部細胞純度,因此該度量標準很難捕獲特定於細胞類型的亞群邊緣的混合。儘管在可視化圖中混合了CD4和CD8細胞,這仍然導致cLISI得分較高的方法。就批次混合(iLISI)而言,LIGER位居首位(p <0.001),其次是Seurat 2和Seurat3。計算得出的kBET得分也顯示LIGER位居第一,Seurat 2位居第二,而Seurat 3位居第三。用於批量混合(p <0.001)。就ASW指標而言,所有方法的批次混合分數均高於0.95,而Harmony和Seurat 3的細胞類型純度最高(p = 0.183),其次是MNN校正。與ARI類似,就細胞類型純度而言,Harmony是最佳方法,其次是fastMNN,Seurat 3和MNN Correct(p <0.13)。這四種方法的ARIbatch分數也很高,大於0.97。使用排名總和,Harmony和Seurat 3總體上是最佳方法,而LIGER位居第三

1

細胞類型不同

由於不相似批次中存在兩種高度相似的細胞類型,因此數據集1對批次校正算法提出了一個有趣的挑戰。可視化圖的檢查表明,大多數方法都能夠將兩個批次混合在一起(圖6)。limma使兩個批次的細胞亞群接近,但沒有實現混合,而MMD-ResNet和BBKNN沒有使任何普通類型的細胞亞群接近。scGen,Harmony,LIGER和scMerge能夠整合第1批和第2批中的雙陰性和pDC細胞,同時將CD141和CD1C細胞保持在單獨的cluster中,而CD1C,CD141和雙陰性細胞的混合最少。MNN Correct,fastMNN,Seurat 3和Seurat 2以及ZINB-WaVE產生了CD141和CD1C細胞的單細胞混合cluster,而ComBat和Scanorama則使CD1C和CD141細胞接近。

就kBET分數而言,LIGER和Seurat 2在批次整合方面是最好的(圖7)。對於iLISI指標,LIGER和Seurat 2再次獲得最高分。就cLISI而言,除Seurat 2和ZINB-WaVE以外,大多數方法均得分較高(1-cLISI> 0.96)。通過ASW指標,LIGER是細胞純度和批量混合方面的領先方法(p <0.001)。除ZINB-WaVE和MMD-ResNet之外,其他方法均具有出色的ASW批次集成評分(1-ASWbatch> 0.95)。對於ARI評估,除ZINB-WaVE(就細胞類型純度而言也是最差的)以外,大多數方法都能實現良好的批次混合。使用指標的等級總和,fastMNN成為最好的方法,LIGER和scMerge分別排名第二和第三

1

多批次

此場景測試了具有多個批次的批次校正功能。數據集4包含五批使用四種技術測序的人類胰腺細胞。t-SNE和UMAP圖顯示Seurat 3,Harmony,scGen和LIGER產生的cluster與來自不同批次的細胞均勻混合(圖14)。對於Seurat 2,fastMNN,Scanorama,ZINB-WaVE,scMerge和BBKNN,批次混合甚至更少。除了scGen外,上述方法還以不同程度混合了星狀和間充質細胞。儘管在Harmony的t-SNE圖中可以看到更好的分離,但LIGER和Harmony也將Delta和γ細胞聚集在一起。MNN Correct,ComBat,limma和MMD-ResNet使來自不同批次的特定於細胞的cluster緊密相連,但沒有明顯的批次混合。

1

大數據

數據集8由使用不同技術獲得的兩批鼠類大腦數據組成(圖16)。細胞數量在不同類型的細胞中分佈不均,第2批中的大部分細胞由星形膠質細胞,神經元,少突膠質細胞和多突膠質細胞組成。只有LIGER似乎在實現批量混合時保持了相對較好的細胞類型分離。Seurat 3,Harmony,ZINB-WaVE,scGen和MMD-ResNet生產的批次混合均勻程度相對較低。ComBat,limma,Scanorama和BBKNN的性能甚至更差,幾乎沒有甚至沒有批次混合。採用LISI指標,所有方法均保持了較高的局部細胞類型純度,並具有良好的cLISI評分(1-cLISI> 0.8)(圖17)。在可以完全在大型數據集上運行的方法中,LIGER和Seurat 2在這些方法中獲得了最高的iLISI得分(p值= 0.057),其次是Harmony和Seurat 3(p <0.001)。在LISI度量標準中,我們可以看到LIGER,Harmony和Seurat 3之間在批次整合和細胞類型純度之間進行了權衡。令人驚訝的是,kBET度量標準顯示出截然不同的結果,這些方法均未獲得良好的評分。相反,fastMNN,scMerge和MNN Correct是kBET的前三種方法。ASW指標也描繪了完全不同的圖景,ZINB-WaVE是批次混合中最好的,儘管大多數方法也顯示出較高的批次混合分數(1-ASWbatch> 0.93),而Harmony產生的細胞類型純度最高(p <0.001) )。ARI結果也有所不同,大多數方法還能夠產生大於0.95的高批次混合分數(limma除外)。總的來說,scGen是最好的方法,是批量混合的最佳方法(p <0.001),並且與LIGER結合可獲得的細胞類型純度(p = 0.34)。就ARI細胞類型的純度而言,scGen和LIGER之後是Harmony。將所有指標的排名與排名總和相結合,Seurat 3排名第一,其次是scGen和Seurat 2

1

模擬數據

如圖20c所示,在所有基因情況下,上調基因的MNN Correct,ComBat和limma的F分數中位數分別為0.73、0.71和0.76,而上調基因的中值F分數為0.94、0.91和0.94。HVG。在統計上,這些方法之間沒有性能差異。在所有基因的情況下,對於下調的基因,我們在F分數結果中也看到了類似的趨勢。但是,如果僅考慮下調的HVG,limma不能消除批次效應,導致F得分低於MNN Correct和ComBat,具有統計學意義 。ZINB-WaVE和scMerge的中位F得分上調基因(所有基因)分別為0.71和0.70,上調基因(HVGs)分別為0.96和0.9,無統計學差異。最後,在Seurat 3,scGen和Scanorama的情況下,上調基因(所有基因)的F分數中位數分別為0.42、0.29和0.17,而上調基因(HVG)的F分數中位數為0.92、0.88和0.22。統計測試顯示,Seurat 3和scGen之間無顯着差異,但Seurat 3和Scanorama的結果之間存在顯着差異(Wilcoxon p值<0.05),scGen和Scanorama的結果之間存在顯着差異(Wilcoxon p值<0.01)。特別是,Scanorama的F得分低於原始得分,這意味着該方法消除了「第1組」和「第2組」之間大多數細胞類型的變異。這表明批處理效果消除方法可以有效地消除模擬數據的數據批之間的技術差異。根據F分數,MNN Correct,ZINB-WaVE,ComBat和scMerge是表現最好的方法


參考文獻:

Tran HTN, Ang KS, Chevrier M, Zhang X, Lee NYS, Goh M, Chen J. A benchmark of batch-effect correction methods for single-cell RNA sequencing data. Genome Biol.2020 Jan 16;21(1):12. doi: 10.1186