單細胞轉錄組數據處理之細胞亞群注釋

  • 2020 年 3 月 27 日
  • 筆記

前面我們一起學習到了單細胞轉錄組數據的降維聚類分群,基本上跑的都是標準程式碼,裡面很多細節參數是需要自己慢慢摸索的。保證單細胞轉錄組表達矩陣品質ok啦,而且需要去除了各種混雜因素。

因為參數需要自己摸索和調整,所以其實拿到細胞亞群數量是因而而異的,取決於你前面降維的程度,分群的演算法和參數。不過最重要的是拿到了不同細胞亞群後需要對它進行命名,給出生物學的解釋。不同的人分析同一個數據集,有略微不同的結果是可以接受的,保證自己的生物學故事圓滿即可。

細胞亞群注釋依賴標記基因

我給大家的單細胞進階課程裡面,示例文章《Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA》, 就是一個使用seurat標準流程對PBMC分群後如下:

seurat標準流程對PBMC分群

得到了這13個細胞類群,而且也細緻的決定它們的亞群名字。實際上PBMC的不同細胞亞群的標記基因是比較明確,的比如:在文章:Nucleic Acids Res. 2018 Apr ,dropClust: efficient clustering of ultra-large scRNA-seq data.就寫的很清楚:

PBMC細胞亞群的標記基因列表

這些標記基因在不同亞群細胞的表達量熱圖或者小提琴圖展示一下,就明白了為什麼它們可以作為標記基因,來對細胞亞群進行命名啦。該系列教程如下:

如果你看完這些教程,就應該知道,並不是所有你拿到細胞亞群,都是有明確生物學功能的,你的文章所要講述的生物學故事也並不需要把全部的細胞亞群一一記流水賬。

標記基因的不同來源

這樣的標記基因列表,有一些網頁工具會收集,比如cellmarker CellMarker: a manually curated resource of cell markers ,作者:X Zhang – ‎2019 。就需要自行學習了,也有自己查詢自己領域內的全部文獻, 然後整理出來標記基因列表。這個步驟至少耗時2個月,比如2018年發表於science雜誌的文章就是自己根據文獻進行整理的:Single-cell transcriptomes from human kidneys reveal the cellular identity of renal tumors.

多種策略來進行亞群注釋

其實有多種策略來進行亞群注釋,但是都很耗費精力。可以選擇每個細胞亞群的差異表達基因進行簡單的富集分析,也可以查詢文獻,選取文獻裡面報道過的細胞亞群特異性高表達基因作為標記基因。

查詢文獻這個工作量是蠻大的,所以一般來說,作者也會把他們最後總結好的細胞亞群注釋使用的標記基因整理成為一個表格,如下:

查詢文獻後整理的標記基因列表

也可以通過差異基因來進行注釋

比如下面的描述,取top100的差異基因,即便是如此,研究者也仍然是找到了不少已知的標記基因來可視化驗證。

取top100的差異基因

單個標記基因可視化以小提琴圖和熱圖展現

兩個可視化方法被集成在seurat包裡面,如下所示

小提琴圖或者熱圖

程式碼通常是:

markers_df <- FindMarkers(object = sce, ident.1 = 8, min.pct = 0.25)  print(x = head(markers_df))  markers_genes =  rownames(head(x = markers_df, n = 5))  VlnPlot(object = sce, features =markers_genes,log =T )  FeaturePlot(object = sce, features=markers_genes )

就是 VlnPlotFeaturePlot 兩個函數,當然,也是可以自己獲取細胞的二維平面坐標,以及指定基因的表達值,自定義繪圖函數。

多個標記基因的可視化也是熱圖為主

下面的例子是,把細胞亞群的基因表達值取一個統計量(平均值或者中位值)來作為該基因在該細胞亞群的表達量。所以熱圖展現多個標記基因在全部細胞亞群的表達量熱圖,也不會擁擠:(後面我們會講解這個圖如何繪製)

多個標記基因的可視化熱圖

但是,如果要展現多個標記基因在全部細胞的表達量,而不僅僅是細胞亞群,熱圖就會很擁擠,如下所示:

多個標記基因在全部細胞的表達量熱圖

可以看到,每個細胞亞群雖然從注釋的角度來說,指定的幾個高表達量基因即可定義它,但是它本身特異性高表達的其它基因也會很多。所以作者單獨把值得一提的標記基因,在熱圖坐標高亮出來。

細胞亞群可以分成主要亞群和次要亞群

Impact of the Microenvironment on Breast Immune Cells (A) Breast immune cell atlas constructed from combining all patient samples (BC1–8) and tissues using Biscuit, projected with t-SNE. Each dot represents a cell, colored by cluster; major cell types are marked according to Figure 2F, H and Table S2, 3. 主要亞群和次要亞群