你確定你的差異基因找對了嗎?

  • 2019 年 10 月 8 日
  • 筆記

轉錄組已經走入尋常百姓家了,現在生命科學領域實驗設計搞個轉錄組測序就跟PCR和WB一樣頻繁和普及,但並不是所有人都會分析了,我在全國巡講分享生物資訊學經驗的時候特別指出了兩個容易混淆的知識點,但大夥類似的錯誤認知還有不少,這裡再詳細講解一個,也順便diss一些已經發表的文章

理所當然的, 大家做完轉錄組,從全局表達矩陣,想看到下面的3張圖:

  • 左邊的熱圖,說明我們實驗的兩個分組,normal和npc的很多基因表達量是有明顯差異的
  • 中間的PCA圖,說明我們的normal和npc兩個分組非常明顯的差異
  • 右邊的層次聚類也是如此,說明我們的normal和npc兩個分組非常明顯的差異

PS:如果你的轉錄組實驗分析報告沒有這三張圖,就把我們生信技能樹的這篇教程甩在他臉上,讓他瞧瞧,學習下轉錄組數據分析。

PS: 示例的3張圖來自於我的GitHub部落格:https://github.com/jmzeng1314/GEO

是不是轉錄組表達矩陣就應該按照表型資訊如此涇渭分明呢?

誠然,有上面那樣清晰可見的差異,這樣的結果當然讓人happy,但並不意味著所有的實驗設計的結果都應該如此, 任何差異都應該是可以解釋的,上圖的normal和npc兩個分組樣本本來就是截然不同,它們的差異也就合情合理啦!

但是,我們來看看另外一篇文章發表在Neuropsychopharmacology. 2014 Aug; 影響因子大概是7 ,題目是:A molecular profile of cocaine abuse includes the differential expression of genes that regulate transcription, chromatin, and dopamine cell phenotype. 有點長,但是文章故事很簡單,就是兩組人的轉錄組

  • Subject inclusion in the cocaine cohort (n=10) was based on determination of cocaine abuse as the cause of death, a documented history of drug abuse
  • Control subjects (n=10) died as a result of cardiovascular disease or gunshot wound, had no documented history of drug abuse, and tested negative for cocaine and other drugs of abuse

共20個人,每個人3次技術重複,所以是60個數據,但是如果我們天真的以為毒品上癮與否的人,大腦的全局基因表達就應該是有翻天覆地的差異就錯了,如下:

可以看到, control組合毒品組,基本上是無法區分開來的,在PCA裡面,這個時候就需要仔細看熱圖:

很明顯,可以看到同一個人的3次技術重複差異非常小,這個符合預期,但是呢,人並沒有按照毒品上癮與否來區分,而是不同人之間的異質性非常高,而且中間還有3個病人,他的3次技術重複都出現了離群點,所以是需要去除的,這一點,文章做的很對!

然後,文章就使用這樣的表達矩陣和分組資訊,去找差異基因了,找毒品上癮與否不同組的人的差異表達基因,毫無疑問,這樣的差異分析,即使把閾值調的再低,也沒多少統計學顯著性的基因能被找出來的。

文章裡面就91個基因,很有趣的是他們使用qPCR實驗驗證了他們的晶片技術找到的差異是可靠的,當然, 這樣他的生物學故事就足夠solid了,這個是歷史遺留問題,大家喜歡相信實驗結果,搞得好像我們的ngs數據分析只能是一個引子一樣。

實際上,這樣的分析明顯是有問題的, 既然不同的人差異這麼大,理論上就可以把人當做是一個批次效應,使用北京大學李程課題組開發的sva包的combat函數,把這樣的效應去除一下,接著再找差異。那個才更有可能是毒品上癮與否的差異啊!