单细胞RNA-seq的前世今生

书籍翻译

好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯;分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者。

希望大家能有所收获!

正文

单细胞RNA-seq简介

2.1

bulk RNA-seq

  1. 在00年代后期取得了重大突破(取代了微阵列(microarrays)并从此被广泛使用。
  2. 测量大量输入细胞中每个基因的平均表达水平。
  3. 用于比较转录组学,例如来自不同物种的相同组织的样品。
  4. 用于量化来自组织的表达标记,例如疾病研究。
  5. 研究异构系统的能力不足,例如:早期发育研究,复杂组织(脑)。
  6. 不提供对基因表达的随机性的见解。

2.2

scRNA-seq技术

  1. 这是一项新技术,首次出版在Tang 2009。
  2. 直到2014年,当新的protocol和较低的测序成本使其更容易获得时,才获得广泛的普及。
  3. 测量细胞群中每个基因的表达水平的分布。
  4. 允许研究新的生物学问题,其中研究在转录组中的细胞特异性变化是重要的,例如,细胞类型鉴定,细胞反应的异质性,基因表达的随机性,跨细胞的基因调控网络的推断。
  5. 数据集范围从102至10^6个细胞间,以及每年的数量都在增加。
  6. 目前,有几种不同的protocol在使用,例如, SMART-seq2(Picelli 2013),CELL-seq(Hashimshony 2012)和Drop-seq(Macosko 2015)。
  7. 还有一些商业平台,包括Fluidigm,Wafergen和10X。
  8. 可以使用来自bulk RNA-seq的几种计算分析方法。
  9. 在大多数情况下,计算分析需要调整现有方法或开发新方法。

2.3

工作流程

总体而言,实验性scRNA-seq方案类似于用于bulk RNA-seq的方法。我们将在下 一章讨论一些最常用的方法

2.4

计算分析

本课程涉及从scRNA-seq实验获得的数据的计算分析。对于任何高通量测序数据,第一步(黄色)是通用的。后续步骤(橙色)需要混合现有的RNASeq分析方法和新方法来解决scRNASeq的技术差异。最后,应使用专为scRNASeq开发的方法给出生物学解释。

有几篇关于scRNA-seq分析的评论,包括(Stegle,Teichmann和Marioni 2015)。

现在,还有几种不同的平台可用于执行上述流程图中的一个或多个步骤。这些包括:

Falco是云上的单细胞RNA-seq处理框架;

SCONE(标准化表达的单细胞概述),是用于单细胞RNA-seq数据质量控制和标准化的包;

Seurat是一个R包,用于质控,分析和探索单细胞RNA-seq数据;

ASAP(自动单细胞分析管道)是一种基于网络的交互式单细胞分析平台

2.5

挑战

bulk和单细胞RNA-seq之间的主要区别在于每个测序文库代表单个细胞,而不是细胞群。因此,必须非常注意比较来自不同细胞(测序文库)的结果。文库之间的主要差异来源是:

  1. 扩增(高达100万fold);
  2. 基因'dropouts',指的是在一个细胞中以中等表达水平观察到基因,但在另一个细胞中未检测到(Kharchenko,Silberstein和Scadden 2014)。在两种情况下,由于RNA仅来自一个细胞,因此由于转录物的起始量低而引入差异。提高转录物捕获效率和减少扩增偏差是目前活跃的研究领域。但是,正如我们将在本课程中看到的那样,通过适当的规范化和校正可以减轻其中的一些问题。

2.6

实验方法

scRNA-seq的新方法和方案的开发目前是一个非常活跃的研究领域,并且在过去几年中已经发表了几种方案。一份非全面的清单:

CEL-seq (Hashimshony et al. 2012);

CEL-seq2 (Hashimshony et al. 2016);

Drop-seq (Macosko et al. 2015);

InDrop-seq (Klein et al. 2015);

MARS-seq (Jaitin et al. 2014);

SCRB-seq (Soumillon et al. 2014);

Seq-well (Gierahn et al. 2017);

Smart-seq (Picelli et al. 2014);

Smart-seq2 (Picelli et al. 2014);

SMARTer

STRT-seq (Islam et al. 2013)

这些方法可以用不同的方式分类,但最重要的两个方面是量化捕获

对于量化,有两种类型,全长基于标签。前者试图获得每个转录本的统一读取覆盖率。相比之下,基于标签的方案仅捕获每个RNA的5'或3'末端。量化方法的选择对于数据可用于何种类型的分析具有重要意义。从理论上讲,全长的方案应该提供转录本的均匀覆盖,但正如我们将要看到的,覆盖范围通常存在偏差。基于标签的方案的主要优点是它们可以与独特的分子标识符(UMI)结合使用,这有助于提高量化效果(见第4.6章)。另一方面,限制在转录本的一端可能会降低可匹配性,并且还使得区分不同同种型更加困难(Archer等人,2016)。

用于捕获的策略决定了通量,如何选择细胞以及除了可以获得的测序之外还有哪种附加信息。其中,三种最广泛使用的选项是基于微孔微流体液滴的选项。

对于基于良好的平台,使用例如移液管或激光捕获分离细胞并置于微流体孔中。基于良好的方法的一个优点是它们可以与荧光激活细胞分选(FACS)组合,使得可以基于表面标记选择细胞。因此,当人们想要分离特定的细胞子集用于测序时,该策略非常有用。另一个优点是可以拍摄细胞的照片。该图像提供了另外的模态,并且特别有用的应用是识别包含受损细胞或双峰的孔。这些方法的主要缺点是它们通常是低通量的并且每个单元所需的工作量可能相当大。

微流体平台,例如Fluidigm的C1,提供了更加集成的系统,用于捕获细胞和进行文库制备所必需的反应。因此,它们提供比基于微孔的平台更高的通量。通常,在微流体平台中仅捕获约10%的细胞,因此如果处理稀有细胞类型或非常少量的输入则它们是不合适的。此外,芯片相对昂贵,但由于反应可以以较小的体积进行,因此可以节省试剂。

基于液滴的方法背后的想法是将每个单独的细胞与珠子一起封装在纳升液滴内。珠子装载构建文库所需的酶。特别地,每个珠子包含独特的条形码,其附着于源自该细胞的所有reads。因此,可以合并所有液滴,一起测序,并且随后可以基于条形码将reads分配给原始细胞。Droplet平台通常具有最高的通量,因为库准备成本大约为每个细胞0.05USD。事实上,测序成本通常成为限制因素,典型实验覆盖率低,仅检测到几千种不同的转录本(Ziegenhain等人,2017)。

2.7

我的实验使用什么平台

最合适的平台取决于手头的生物学问题。例如,如果人们对表征组织的组成感兴趣,那么将允许捕获非常大量细胞的基于液滴的方法可能是最合适的。另一方面,如果人们对表征具有已知表面标记的稀有细胞群有兴趣,那么最好使用FACS进行富集,然后对较少数量的细胞进行测序。

显然,如果有兴趣研究不同isoforms,那么全长转录物定量将更合适,因为标记的方案更加有限。相比之下,UMI只能与基于标签的方案一起使用,它们可以促进基因水平的量化。

最近Enard小组(Ziegenhain等人,2017)和Teichmann小组(Svensson等人,2017)的两项研究比较了几种不同的方案。在他们的研究中,Ziegenhain等人在同一小鼠胚胎干细胞样本(mESCs)上比较了五种不同的方案。通过控制细胞数量和测序深度,作者能够直接比较不同方案的灵敏度,noise水平和成本。在下图中说明了他们的结论的一个例子,其显示了针对不同方法检测的基因数量(对于给定的检测阈值)。正如你所看到的,drop-seq和Smart-seq2之间几乎有两倍的差异,这表明方案的选择会对研究产生重大影响。

Svensson等人采用了一种不同的方法,通过使用已知浓度的合成转录物(spike-ins,后面有更多关于这些)来测量不同方案的准确性和灵敏度。通过比较大量的研究,他们还报告了方案之间的实质性差异。

随着方案的开发和用于量化技术noise的计算方法的改进,未来的研究很可能有助于我们进一步了解不同方法的优势。这些比较研究不仅有助于研究人员决定使用哪种方案,而且有助于开发新方法,因为基准测试(benchmarking)可以确定哪些策略是最有用的。