单细胞转录组的CNV可以区分细胞恶性与否

  • 2020 年 3 月 30 日
  • 筆記

对单细胞转录组数据计算基因组层面的CNV信息,这个概念最早来自于Aviv Regev实验室,在她的一系列文章里面得到了淋漓尽致的展示。

Aviv Regev;早年在以色列的特拉维夫大学(Tel Aviv University)攻读硕士学位,在其跨学科卓越项目(Interdisciplinary Program for the Fostering of Excellence)中学习生物学、计算机科学和数学,之后在特拉维夫大学取得计算生物学博士学位。女神作为一个计算与系统生物学家,目前就职于麻省理工学院,为生物学教授,同时也是霍华德休斯医学研究所(Howard Hughes Medical Institute)的研究员、以及Broad Institute的卡曼细胞观测与细胞回路项目(the Klarman Cell Observatory and Cell Circuits Program)的领头人、和国际人类细胞图谱计划(the international Human Cell Atlas project)的共同主席。

第一篇就是2014的science关于GBM的单细胞转录组文章,DOI: 10.1126/science.1254257 标题是; Single-cell RNA-seq highlights intratumoral heterogeneity in primary glioblastoma 而且当时把单细胞转录组的CNV算法在CCLE的数据里面验证了,如下图:

关于Aviv Regev实验室在broad开发的工具,对单细胞转录组数据计算CNV及绘制热图,可以看我的早期教程了解背景知识:

我也拿那个软件在普通的bulk转录组数据,CCLE数据库数据,以及两个单细胞数据集测试了,最后在2014的science关于GBM文章的数据里面验证了,可以说已经学会了该软件的使用,但是只会用软件成不了气候,还是得深入理解原理。诸君也要加油哦。

2016年4月science杂志的黑色素瘤

下载发表在Science. 2016 Apr,题目是: Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNA-seq. 文献,找到单细胞转录组表达矩阵 GSE72056, 研究者选择了 19个黑色素瘤病人,获得了4645个单细胞,进行转录组测序。文件是 GSE72056_melanoma_single_cell_revised_v2.txt.gz,载入R里面走scater流程即可。

如果要走inferCNV流程,可能需要看最新文档了,如下,非常清晰的看到,恶性细胞是具有跟WES类似的CNV,但是非恶性细胞就没有!

2017年12月CELL杂志的头颈癌

下载发表于2017年12月,在CELL杂志:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer 的文献,找到单细胞转录组表达矩阵,数据公布在 GSE103322 。研究者用Smart-seq2建库方法得到的单细胞转录组数据经过QC后,留下了来自18名患者的5,902个细胞,首先可以分成2215个恶性细胞和3363个非恶性细胞。文件是 GSE103322_HNSCC_all_data.txt.gz,有86.0 Mb,对进行3363个非恶性细胞表达矩阵分群,根据已知标记基因(自行搜索)的表达,注释并且找到B细胞,巨噬细胞,树突状细胞,肥大细胞,内皮细胞,成纤维细胞和肌细胞这8类!

也是可以根据单细胞转录组的CNV信息,很清晰的看到恶性细胞与非恶性细胞。

2017年NC的乳腺

下载发表在 Nat Commun. 2017 May 的文献, 耗时一年才发表,算是乳腺癌领域非常早的单细胞转录组研究了,韩国人做的,题目是:Single-cell RNA-seq enables comprehensive tumour and immune cell profiling in primary breast cancer. 找到单细胞转录组表达矩阵 :GSE75688 下载表达矩阵和样本信息,从GSE75688_GEO_processed_Breast_Cancer_raw_TPM_matrix.txt.gz文件里面仅仅是提取非tumor的细胞,使用SingleCellExperiment函数构建 SingleCellExperiment 对象后走scater的PCA并且可视化,看看表型文件GSE75688_final_sample_information.txt.gz记录的细胞类型是否区分的很开。

这里我就不继续截图了,相信你可以看到更多的类似的文章。

不过,对10X的单细胞转录组数据,其实使用这样的分析方法,是存疑的!