你確定你的差異基因找對了嗎？

2019 年 10 月 8 日
筆記

轉錄組已經走入尋常百姓家了，現在生命科學領域實驗設計搞個轉錄組測序就跟PCR和WB一樣頻繁和普及，但並不是所有人都會分析了，我在全國巡講分享生物資訊學經驗的時候特別指出了兩個容易混淆的知識點，但大夥類似的錯誤認知還有不少，這裡再詳細講解一個，也順便diss一些已經發表的文章。

理所當然的，大家做完轉錄組，從全局表達矩陣，想看到下面的3張圖：

左邊的熱圖，說明我們實驗的兩個分組，normal和npc的很多基因表達量是有明顯差異的
中間的PCA圖，說明我們的normal和npc兩個分組非常明顯的差異
右邊的層次聚類也是如此，說明我們的normal和npc兩個分組非常明顯的差異

PS：如果你的轉錄組實驗分析報告沒有這三張圖，就把我們生信技能樹的這篇教程甩在他臉上，讓他瞧瞧，學習下轉錄組數據分析。

PS: 示例的3張圖來自於我的GitHub部落格：https://github.com/jmzeng1314/GEO

是不是轉錄組表達矩陣就應該按照表型資訊如此涇渭分明呢？

誠然，有上面那樣清晰可見的差異，這樣的結果當然讓人happy，但並不意味著所有的實驗設計的結果都應該如此，任何差異都應該是可以解釋的，上圖的normal和npc兩個分組樣本本來就是截然不同，它們的差異也就合情合理啦！

但是，我們來看看另外一篇文章發表在Neuropsychopharmacology. 2014 Aug; 影響因子大概是7 ，題目是：A molecular profile of cocaine abuse includes the differential expression of genes that regulate transcription, chromatin, and dopamine cell phenotype. 有點長，但是文章故事很簡單，就是兩組人的轉錄組：

Subject inclusion in the cocaine cohort (n=10) was based on determination of cocaine abuse as the cause of death, a documented history of drug abuse
Control subjects (n=10) died as a result of cardiovascular disease or gunshot wound, had no documented history of drug abuse, and tested negative for cocaine and other drugs of abuse

共20個人，每個人3次技術重複，所以是60個數據，但是如果我們天真的以為毒品上癮與否的人，大腦的全局基因表達就應該是有翻天覆地的差異就錯了，如下：