单细胞转录组数据处理之细胞亚群注释

2020 年 3 月 27 日
筆記

前面我们一起学习到了单细胞转录组数据的降维聚类分群，基本上跑的都是标准代码，里面很多细节参数是需要自己慢慢摸索的。保证单细胞转录组表达矩阵质量ok啦，而且需要去除了各种混杂因素。

因为参数需要自己摸索和调整，所以其实拿到细胞亚群数量是因而而异的，取决于你前面降维的程度，分群的算法和参数。不过最重要的是拿到了不同细胞亚群后需要对它进行命名，给出生物学的解释。不同的人分析同一个数据集，有略微不同的结果是可以接受的，保证自己的生物学故事圆满即可。

细胞亚群注释依赖标记基因

我给大家的单细胞进阶课程里面，示例文章《Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA》，就是一个使用seurat标准流程对PBMC分群后如下:

得到了这13个细胞类群，而且也细致的决定它们的亚群名字。实际上PBMC的不同细胞亚群的标记基因是比较明确，的比如：在文章：Nucleic Acids Res. 2018 Apr ，dropClust: efficient clustering of ultra-large scRNA-seq data.就写的很清楚：

这些标记基因在不同亚群细胞的表达量热图或者小提琴图展示一下，就明白了为什么它们可以作为标记基因，来对细胞亚群进行命名啦。该系列教程如下：

如果你看完这些教程，就应该知道，并不是所有你拿到细胞亚群，都是有明确生物学功能的，你的文章所要讲述的生物学故事也并不需要把全部的细胞亚群一一记流水账。

标记基因的不同来源

这样的标记基因列表，有一些网页工具会收集，比如cellmarker CellMarker: a manually curated resource of cell markers ，作者：X Zhang – ‎2019 。就需要自行学习了，也有自己查询自己领域内的全部文献，然后整理出来标记基因列表。这个步骤至少耗时2个月，比如2018年发表于science杂志的文章就是自己根据文献进行整理的：Single-cell transcriptomes from human kidneys reveal the cellular identity of renal tumors.

多种策略来进行亚群注释

其实有多种策略来进行亚群注释，但是都很耗费精力。可以选择每个细胞亚群的差异表达基因进行简单的富集分析，也可以查询文献，选取文献里面报道过的细胞亚群特异性高表达基因作为标记基因。

查询文献这个工作量是蛮大的，所以一般来说，作者也会把他们最后总结好的细胞亚群注释使用的标记基因整理成为一个表格，如下：

也可以通过差异基因来进行注释

比如下面的描述，取top100的差异基因，即便是如此，研究者也仍然是找到了不少已知的标记基因来可视化验证。

单个标记基因可视化以小提琴图和热图展现

两个可视化方法被集成在seurat包里面，如下所示

代码通常是：

markers_df <- FindMarkers(object = sce, ident.1 = 8, min.pct = 0.25)  print(x = head(markers_df))  markers_genes =  rownames(head(x = markers_df, n = 5))  VlnPlot(object = sce, features =markers_genes,log =T )  FeaturePlot(object = sce, features=markers_genes )

就是 VlnPlot 和 FeaturePlot 两个函数，当然，也是可以自己获取细胞的二维平面坐标，以及指定基因的表达值，自定义绘图函数。

多个标记基因的可视化也是热图为主

下面的例子是，把细胞亚群的基因表达值取一个统计量（平均值或者中位值）来作为该基因在该细胞亚群的表达量。所以热图展现多个标记基因在全部细胞亚群的表达量热图，也不会拥挤：（后面我们会讲解这个图如何绘制）

但是，如果要展现多个标记基因在全部细胞的表达量，而不仅仅是细胞亚群，热图就会很拥挤，如下所示：

可以看到，每个细胞亚群虽然从注释的角度来说，指定的几个高表达量基因即可定义它，但是它本身特异性高表达的其它基因也会很多。所以作者单独把值得一提的标记基因，在热图坐标高亮出来。

细胞亚群可以分成主要亚群和次要亚群

Impact of the Microenvironment on Breast Immune Cells (A) Breast immune cell atlas constructed from combining all patient samples (BC1–8) and tissues using Biscuit, projected with t-SNE. Each dot represents a cell, colored by cluster; major cell types are marked according to Figure 2F, H and Table S2, 3. 主要亚群和次要亚群