單細胞RNA-seq的前世今生

  • 2020 年 3 月 27 日
  • 筆記

書籍翻譯

好的書籍是人類進步的階梯,但有些人卻找不到優秀的階梯,為此我們開設了書籍翻譯這個欄目,作為你學習之路的指路明燈;分享中國外優秀書籍,弘揚分享精神,做一個知識的傳播者。

希望大家能有所收穫!

正文

單細胞RNA-seq簡介

2.1

bulk RNA-seq

  1. 在00年代後期取得了重大突破(取代了微陣列(microarrays)並從此被廣泛使用。
  2. 測量大量輸入細胞中每個基因的平均表達水平。
  3. 用於比較轉錄組學,例如來自不同物種的相同組織的樣品。
  4. 用於量化來自組織的表達標記,例如疾病研究。
  5. 研究異構系統的能力不足,例如:早期發育研究,複雜組織(腦)。
  6. 不提供對基因表達的隨機性的見解。

2.2

scRNA-seq技術

  1. 這是一項新技術,首次出版在Tang 2009。
  2. 直到2014年,當新的protocol和較低的測序成本使其更容易獲得時,才獲得廣泛的普及。
  3. 測量細胞群中每個基因的表達水平的分布。
  4. 允許研究新的生物學問題,其中研究在轉錄組中的細胞特異性變化是重要的,例如,細胞類型鑒定,細胞反應的異質性,基因表達的隨機性,跨細胞的基因調控網路的推斷。
  5. 數據集範圍從102至10^6個細胞間,以及每年的數量都在增加。
  6. 目前,有幾種不同的protocol在使用,例如, SMART-seq2(Picelli 2013),CELL-seq(Hashimshony 2012)和Drop-seq(Macosko 2015)。
  7. 還有一些商業平台,包括Fluidigm,Wafergen和10X。
  8. 可以使用來自bulk RNA-seq的幾種計算分析方法。
  9. 在大多數情況下,計算分析需要調整現有方法或開發新方法。

2.3

工作流程

總體而言,實驗性scRNA-seq方案類似於用於bulk RNA-seq的方法。我們將在下 一章討論一些最常用的方法

2.4

計算分析

本課程涉及從scRNA-seq實驗獲得的數據的計算分析。對於任何高通量測序數據,第一步(黃色)是通用的。後續步驟(橙色)需要混合現有的RNASeq分析方法和新方法來解決scRNASeq的技術差異。最後,應使用專為scRNASeq開發的方法給出生物學解釋。

有幾篇關於scRNA-seq分析的評論,包括(Stegle,Teichmann和Marioni 2015)。

現在,還有幾種不同的平台可用於執行上述流程圖中的一個或多個步驟。這些包括:

Falco是雲上的單細胞RNA-seq處理框架;

SCONE(標準化表達的單細胞概述),是用於單細胞RNA-seq數據品質控制和標準化的包;

Seurat是一個R包,用於質控,分析和探索單細胞RNA-seq數據;

ASAP(自動單細胞分析管道)是一種基於網路的互動式單細胞分析平台

2.5

挑戰

bulk和單細胞RNA-seq之間的主要區別在於每個測序文庫代表單個細胞,而不是細胞群。因此,必須非常注意比較來自不同細胞(測序文庫)的結果。文庫之間的主要差異來源是:

  1. 擴增(高達100萬fold);
  2. 基因'dropouts',指的是在一個細胞中以中等表達水平觀察到基因,但在另一個細胞中未檢測到(Kharchenko,Silberstein和Scadden 2014)。在兩種情況下,由於RNA僅來自一個細胞,因此由於轉錄物的起始量低而引入差異。提高轉錄物捕獲效率和減少擴增偏差是目前活躍的研究領域。但是,正如我們將在本課程中看到的那樣,通過適當的規範化和校正可以減輕其中的一些問題。

2.6

實驗方法

scRNA-seq的新方法和方案的開發目前是一個非常活躍的研究領域,並且在過去幾年中已經發表了幾種方案。一份非全面的清單:

CEL-seq (Hashimshony et al. 2012);

CEL-seq2 (Hashimshony et al. 2016);

Drop-seq (Macosko et al. 2015);

InDrop-seq (Klein et al. 2015);

MARS-seq (Jaitin et al. 2014);

SCRB-seq (Soumillon et al. 2014);

Seq-well (Gierahn et al. 2017);

Smart-seq (Picelli et al. 2014);

Smart-seq2 (Picelli et al. 2014);

SMARTer

STRT-seq (Islam et al. 2013)

這些方法可以用不同的方式分類,但最重要的兩個方面是量化捕獲

對於量化,有兩種類型,全長基於標籤。前者試圖獲得每個轉錄本的統一讀取覆蓋率。相比之下,基於標籤的方案僅捕獲每個RNA的5'或3'末端。量化方法的選擇對於數據可用於何種類型的分析具有重要意義。從理論上講,全長的方案應該提供轉錄本的均勻覆蓋,但正如我們將要看到的,覆蓋範圍通常存在偏差。基於標籤的方案的主要優點是它們可以與獨特的分子標識符(UMI)結合使用,這有助於提高量化效果(見第4.6章)。另一方面,限制在轉錄本的一端可能會降低可匹配性,並且還使得區分不同同種型更加困難(Archer等人,2016)。

用於捕獲的策略決定了通量,如何選擇細胞以及除了可以獲得的測序之外還有哪種附加資訊。其中,三種最廣泛使用的選項是基於微孔微流體液滴的選項。

對於基於良好的平台,使用例如移液管或雷射捕獲分離細胞並置於微流體孔中。基於良好的方法的一個優點是它們可以與熒光激活細胞分選(FACS)組合,使得可以基於表面標記選擇細胞。因此,當人們想要分離特定的細胞子集用於測序時,該策略非常有用。另一個優點是可以拍攝細胞的照片。該影像提供了另外的模態,並且特別有用的應用是識別包含受損細胞或雙峰的孔。這些方法的主要缺點是它們通常是低通量的並且每個單元所需的工作量可能相當大。

微流體平台,例如Fluidigm的C1,提供了更加集成的系統,用於捕獲細胞和進行文庫製備所必需的反應。因此,它們提供比基於微孔的平台更高的通量。通常,在微流體平台中僅捕獲約10%的細胞,因此如果處理稀有細胞類型或非常少量的輸入則它們是不合適的。此外,晶片相對昂貴,但由於反應可以以較小的體積進行,因此可以節省試劑。

基於液滴的方法背後的想法是將每個單獨的細胞與珠子一起封裝在納升液滴內。珠子裝載構建文庫所需的酶。特別地,每個珠子包含獨特的條形碼,其附著於源自該細胞的所有reads。因此,可以合併所有液滴,一起測序,並且隨後可以基於條形碼將reads分配給原始細胞。Droplet平台通常具有最高的通量,因為庫準備成本大約為每個細胞0.05USD。事實上,測序成本通常成為限制因素,典型實驗覆蓋率低,僅檢測到幾千種不同的轉錄本(Ziegenhain等人,2017)。

2.7

我的實驗使用什麼平台

最合適的平台取決於手頭的生物學問題。例如,如果人們對錶征組織的組成感興趣,那麼將允許捕獲非常大量細胞的基於液滴的方法可能是最合適的。另一方面,如果人們對錶征具有已知表面標記的稀有細胞群有興趣,那麼最好使用FACS進行富集,然後對較少數量的細胞進行測序。

顯然,如果有興趣研究不同isoforms,那麼全長轉錄物定量將更合適,因為標記的方案更加有限。相比之下,UMI只能與基於標籤的方案一起使用,它們可以促進基因水平的量化。

最近Enard小組(Ziegenhain等人,2017)和Teichmann小組(Svensson等人,2017)的兩項研究比較了幾種不同的方案。在他們的研究中,Ziegenhain等人在同一小鼠胚胎幹細胞樣本(mESCs)上比較了五種不同的方案。通過控制細胞數量和測序深度,作者能夠直接比較不同方案的靈敏度,noise水平和成本。在下圖中說明了他們的結論的一個例子,其顯示了針對不同方法檢測的基因數量(對於給定的檢測閾值)。正如你所看到的,drop-seq和Smart-seq2之間幾乎有兩倍的差異,這表明方案的選擇會對研究產生重大影響。

Svensson等人採用了一種不同的方法,通過使用已知濃度的合成轉錄物(spike-ins,後面有更多關於這些)來測量不同方案的準確性和靈敏度。通過比較大量的研究,他們還報告了方案之間的實質性差異。

隨著方案的開發和用於量化技術noise的計算方法的改進,未來的研究很可能有助於我們進一步了解不同方法的優勢。這些比較研究不僅有助於研究人員決定使用哪種方案,而且有助於開發新方法,因為基準測試(benchmarking)可以確定哪些策略是最有用的。