單細胞轉錄組數據分析的時候可以加上wgcna

  • 2020 年 3 月 30 日
  • 筆記

WGCNA分析大家都不陌生了,我在生信技能樹多次寫教程分享WGCNA的實戰細節:

那些教程都是針對傳統的bulk轉錄組測序的表達矩陣,其實單細胞轉錄組也是拿到表達矩陣,只不過是有一些特性,比如非常多的0值等等。那麼有沒有這樣的研究嘗試把WGCNA融入單細胞轉錄組數據分析呢?

答案是有的,Posted March 04, 2019. 丟在預印本的文章,題目是:[Single-Cell RNA Sequencing Reveals Regulatory Mechanism for Trophoblast Cell-Fate Divergence in Human Peri-Implantation Embryo](Single-Cell RNA Sequencing Reveals Regulatory Mechanism for Trophoblast Cell-Fate Divergence in Human Peri-Implantation Embryo) 就這樣做了,讓我們一起來看看吧。

背景

To obtain transcriptomic profiles of human trophoblast cells during peri-implantation development, we harvested single cells from 19 embryos from day 6 to day 10, complement with 25 endometrial cells. Transcriptomes from 614 single cells were successfully profiled, with 0.7 million uniquely mapped reads and 24,011 detected transcripts per cell on average.數據都是在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE125616

主要樣品是人類著床前胚胎的 Trophoblasts 進行單細胞轉錄組測序,其中516 embryonic cells 可以分成476 TE-, 14 EPI-and 26 PE-lineage cells. 最後的分析重點是 476 individual trophoblast cells isolated from 19 human embryos

  • cells of epiblast (EPI),
  • primitive endoderm q (PE)
  • trophectoderm (TE)

當然了,還有少量的endometrial cells,第一主成分就可以區分開來它們,如下:

Embryonic cells were assigned into three lineages, namely TE, EPI and PE, based on their expression of 300 previous identified lineage marker genes. 需要相關生物學知識。

其中時間這個屬性也是在PCA上面反映到:

不管是時間這個屬性天然對單細胞分組,還是整體的表達矩陣進入單細胞數據分析流程後分組, 都是可以看基因表達量情況的小提琴圖等等。分析其實仍然是我們一直講解的R包及基礎流程,分別是: scater,monocle,Seurat,scran,M3Drop 需要熟練掌握它們的對象,:一些單細胞轉錄組R包的對象 流程也大同小異:

  • step1: 創建對象
  • step2: 品質控制
  • step3: 表達量的標準化和歸一化
  • step4: 去除干擾因素(多個樣本整合)
  • step5: 判斷重要的基因
  • step6: 多種降維演算法
  • step7: 可視化降維結果
  • step8: 多種聚類演算法
  • step9: 聚類後找每個細胞亞群的標誌基因
  • step10: 繼續分類

WGCNA步驟

To systematically investigate the genetic program dynamics, we performed Weighted Gene Co-expression Network Analysis (WGCNA) on 2,464 genes that were variably expressed in trophoblast cells between different developmental stages.

WGCNA identified eight gene modules, each of which contains a set of genes that tend to be coexpressed at a certain development stage!

可以看到WGCAN其實大家需要注意的是挑選基因,然後判斷模組,最後關聯起來性狀即可!

研究者感興趣的生物學組別

其實是:

  • cytotrophoblast (CT),
  • extravillous cytotrophoblast (EVT)
  • syncytiotrophoblast (ST)

所以才會有如下圖表:

讓我意外的是,文章裡面僅僅是提到了 Seurat 流程,沒有monocle,但是卻有lineage分析 !其實這個小鼠發育研究,跟我前面的影片課程非常類似,可以作為一個練習題,考核一下大家!