是否可以根據10X轉錄組數據來推斷基因組CNV資訊呢?
- 2020 年 3 月 30 日
- 筆記
有學員問10x的3『端測序來infer CNV 是否可靠?
這個問題,說實話,很難回答,因為要是能完整回答這個問題,其實就是一篇正經的生物資訊學文章了。
而且以前的確有文章這樣做,我看到過的文章是是 Comprehensive analysis of immune evasion in breast cancer by single-cell RNA-seq , 鏈接是. doi: http://dx.doi.org/10.1101/368605 bioRxiv preprint first posted online Jul. 13, 2018; 就是使用10X轉錄組數據來推斷CNV資訊,如下:

他們分析的結果看起來還行,反正是腫瘤惡性細胞和其它細胞是可以區分開來的,但是我沒有看到原始數據可以下載,所以也無法復現這個分析流程,姑且只能是先相信他們。

那麼10X數據跟其它單細胞轉錄組差異在哪呢?
在我們推薦的各種單細胞轉錄組技術比較的文章,Ziegenhain et al., 2017, Molecular Cell http://dx.doi.org/10.1016/j.molcel.2017.01.023 其實提到過:

雖然這篇文章沒有比較10X,不過,只要是你的文章足夠多,其實很容易想到,因為10X技術出來的單個細胞的reads數量太少,檢測到的基因數量太少。
很容易從10X的數據分析報告看出來,10X單細胞轉錄組數據處理流程在我們單細胞天地有詳細介紹:
- 單細胞實戰(一)數據下載
- 單細胞實戰(二) cell ranger使用前注意事項
- 單細胞實戰(三) Cell Ranger使用初探
- 單細胞實戰(四) Cell Ranger流程概覽
- 單細胞實戰(五) 理解cellranger count的結果
報告如下:

顯示平均每個細胞的測序數據量是45K條reads。
當然,並不是10x一個技術是這樣單個細胞的reads數量太少,檢測到的基因數量太少。比如文章:Li et al., Dysfunctional CD8 T Cells Form a Proliferative, Dynamically Regulated Compartment within Human Melanoma, Cell (2019), https://doi.org/10.1016/j.cell.2018.11.043 :同樣的,平均每個細胞也就40K左右的reads數量啦。

而其它技術,通常可以達到百萬條reads的量級。
比如湯富酬的 A single-cell RNA-seq survey of the developmental landscape of the human prefrontal cortex:

再比如張澤明的 Lineage tracking reveals dynamic relationships of T cells in colorectal cancer:

這跟10X來說,都是數量級的差異。
如果你想讓你的 10X達到百萬級別的測序量該如何
從40K到1M,需要25倍的擴大,如果從包lane的角度來說,有點太貴了,現在哪怕是Nova-seq,一條lane也得好幾千塊錢,雖然是10X費用是一個樣本2萬塊錢,但是給一個10X樣本測25條lane,就把成本優勢給搞沒有了。
不過,並不是說推斷CNV就一定需要1M的reads,實際上是可以通過模擬不同文庫大小數據,來測試什麼樣的數據量,是可以足夠推斷CNV的,比如就可以在bulk數據,或者那樣的C1數據裡面測試。
這個課題,就交給大家了哦。