轉錄組分析的正確知識都了解了嗎?

  • 2019 年 10 月 7 日
  • 筆記

轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、標誌基因、協同變化基因、差異剪接和新轉錄本,並進行結果可視化、功能注釋和網路分析等。

轉錄組的測序分析也相對成熟,從RNA提取、構建文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。

概括來看轉錄組的分析流程比較簡單,序列比對轉錄本拼接 (可選)表達定量差異基因功能富集訂製分析。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合適的技術之一。

但重點和難點在於理解這些過程都是怎麼做的,有什麼需要注意的,結果怎麼解讀,後續分析怎麼做。這些只有自己動手操作過,才可能有理解。而理解了一個,再去做其它類型分析,也會輕鬆很多。

實驗設計這塊重要的是對照和至少3個生物學重複,並選擇合適的測序通量。ENCODE要求重複之間的Spearman correlation值大於0.9 (遺傳背景不一致的生物重複相關係數要大於0.8)。定量基因表達和評估轉錄圖譜相似性只需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長RNA-seq文庫測序深度滿足可用reads20-30 million (如果測PE150,換算成鹼基數為6G-9G)。

另外一個需要注意的是測序的批次效應,保證自己的樣品同時處理、RNA同時提取、同時構建文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最後在繪製表達圖譜時與實驗相關參數進行關聯展示 (利用我們介紹的熱圖簡化或高顏值可訂製在線繪圖工具-第三版),從而保證結果沒有受到試驗中處理批次的影響。ENCODE計劃有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。後來發現是測序批次搗的鬼,做了批次效應矯正後,表達圖譜按組織而非物種聚在一起了。

測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到後續分析時參數的選擇,比如知道什麼是插入片段大小,什麼是鏈特異性測序,什麼情況會有接頭序列,雙端測序如何測等。

獲得數據後,就涉及到數據的傳輸和品質評估(也包括如何從公共資料庫下載數據)和文件格式的轉換。FASTQ格式解釋和品質評估中有些提及。品質評估的意義在於從測序品質角度評價建庫和測序的成功與否,指導接頭和低品質鹼基的去除。這一步參數控制的嚴格與否對後續的比對會有影響,同時也會受到後續分析選擇的工具的影響。對Linux系統一定程度的了解,是進行這些工作的基礎。

39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合適的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一併讀一下,這樣在後期分析時對工具的選擇和使用才更得心應手。

工具比較類文章一般只告訴你做了什麼,不告訴你這麼做的原因是什麼,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合適的基因組和注釋文件,什麼樣的軟體支援Junction reads的比對,什麼樣的比對率是合適的,比對品質怎樣,測序中RNA有無降解或選擇偏好性,測序飽和度如何等。

這些可能都不會體現在最終的結果中,但都是確保後期結果可靠性所必須要做的事情。2002年諾貝爾獎得主Sydney Brenner曾對數據分析做過提醒Garbage in, Garbage out。軟體是死的,提供了格式正確的輸入,就可以得到輸出,但輸出正確與否,就得靠人的經驗來判斷了。

在後面的差異基因鑒定階段,還存在把FPKM值轉換為整數再提交給DESeq2做分析的,軟體不報錯,但結果不對。或者能順著教程運行DEseq2分析,但換成自己的數據就不知道如何下手的 (DESeq2差異基因分析和批次效應移除)。這些問題都需要在實踐過程中持續不斷的試錯、閱讀更多的文章和教程來步步矯正。