實驗和檢測技術帶來的高假陽性烏云:6mA是否真的在哺乳動物中廣泛存在?

去年6月,哈佛醫學院Eric L. Greer研究組發表了題為Sources of artifact in measurements of 6mA and 4mC abundance in eukaryotic genomic DNA的文章,重點探討了常用修飾檢測技術在檢測6mA和4mC等核酸修飾時可能引入的誤差,並從實驗操作、系統誤差、數據分析等方面展開了討論[1]。作者通過優化檢測方法重新核驗了部分已發表的DNA修飾數據(包括Eric Greer 本人2015年在Cell上發表的線蟲6mA數據[2]),發現已有的研究報道中確實存在假陽性結果,而由此得出的生物學推論也需要更謹慎的論證。該工作提出的觀點對於關注核酸修飾研究領域發展的學者們有重要參考意義。

DNA修飾已被報道可參與多種原核、真核生物的重要生命過程,包括基因轉錄、X染色體沉默、基因印記等。根據現有報道,在哺乳動物基因組中5mC含量約佔3-8%,而6mA則在真菌、擬南芥、線蟲、果蠅、蛙、斑馬魚等多細胞生物中被陸續檢出[2-5]。目前,常用於修飾檢測的實驗技術包括超高效液相色譜-串聯質譜檢測(UHPLC-MS/MS)、特異性抗體結合、單分子實時測序(SMRTseq/ONT)、修飾敏感性酶切等。這些方法都各具優缺點,特別是對於6mA或4mC等真核生物DNA上含量較低的修飾,往往需要聯合使用多種檢測手段以獲得更可靠的結果[6]。

作為修飾鹼基檢驗的金標準,UHPLC-MS/MS本身的靈敏性和特異性受到研究者的廣泛認可。然而,這一方法需要對DNA樣品進行預處理,利用核酸酶把DNA鏈消化成單鹼基。這一過程不僅丟失了DNA的序列資訊,而且可能引入外源性核酸修飾污染。因此,作者首先評估了三種常用於對樣品進行消化處理的商用酶組合:Nuclease P1 (Wako USA) +鹼性磷酸酶(Sigma-Aldrich),Nuclease S1 (ThermoScientific)+快速鹼性磷酸酶(FastAP, Thermo Scientific),DNA degradase plus (Zymo Research)+鹼性磷酸酶 (Sigma-Aldrich)。分析結果顯示所有酶組合無一例外均攜帶有不同程度的外源DNA污染。第一種酶組合作為DNA修飾檢測中使用最廣泛的組合,其處理組測得了最高的6mA和4mC修飾水平。其中6mA達50nmol,5mC/3mC達495nmol,均比其他兩種酶組合高出一個量級,4mC的檢出維持在較低水平(約5nmol)。在其他兩種酶組合中,4mC的檢出均低於可檢測水平。鑒於此結果,作者選擇採用DNA degradase plus+鹼性磷酸酶這種組合進行後續的實驗,並加設僅含酶和水的空白對照組。

三種商用酶組合均攜帶不同程度的DNA修飾污染

下一步,他們基於優化後的UHPLC-MS/MS系統搭配使用DNA degradase plus+鹼性磷酸酶做樣品處理,重新測定了16種真核生物DNA樣品的修飾數據,其中包括衣藻、線蟲、昆蟲、兩棲類、鳥類、嚙齒類和人的樣本,並以野生型E. coli 和 dam−dcm− 雙缺陷型E. coli 的數據作為對照。結果顯示,真核生物中,僅萊茵衣藻的樣本顯示出了較高的6mA含量(0.13-0.34%),其餘樣本數據均在0.00003–0.0004%左右,有的甚至低於可檢測範圍。而測得的5mC含量則與之前報道較為一致:除在三種酵母樣本中未檢出外,其他樣本均測得較高含量(1.7–7%),說明5mC確實為真核生物主要的DNA修飾類型。

用優化後的UHPLC-MS/MS對16個真核生物樣本和2個原核生物樣本測得的6mA和5mC數據

為了儘可能排除原核DNA污染的干擾,作者還特意設計了針對原核生物16S rRNA的引物對樣本進行RT-PCR,並嘗試檢測來自無菌小鼠DNA樣本和HEK 293T 細胞DNA中6mA含量。RT-PCR的實驗結果表明,所有樣品均受到一定程度的原核DNA污染,儘管對實驗操作進行了嚴格的把控,污染依舊無法徹底排除。不過對於原核DNA污染量在2%以下的真核生物樣本而言,DNA修飾水平與原核DNA污染量並不存在明顯的正相關關係。

由於該實驗中測得的真核生物6mA含量均很低,所以作者不排除目前已報道的部分真核生物6mA修飾很可能也是由實驗操作誤差所致。作者認為嚴格的樣本處理方法以及設置恰當的實驗對照組對於檢測DNA修飾水平是保證數據準確性的關鍵,同時更靈敏、更精確的檢測方法亦有待開發。

隨後,作者又探究了超聲破碎處理對DNA修飾數據的影響。他們發現,在包括小鼠、人等理論上不含有4mC的真核生物核DNA質譜圖中均出現了一個比4mC標準峰滯後0.04–0.05分鐘的亞峰,作者將其對應的組分命名為mC*。由於mC*峰僅出現在5mC含量較高的樣品中,所以作者推斷mC*是5mC超聲破碎造成的副產品。進一步實驗分析表明,mC*的確隨樣品5mC的含量變化而波動。雖然目前已經排除了由dNTP造成mC*峰的可能性,但其準確的分子組分尚無法確定。

左圖顯示了mC*峰,右圖顯示超聲破碎後樣本中mC*含量明顯增加

在接下來的實驗里,作者將目光轉向了發育過程中的修飾水平檢測。在果蠅、斑馬魚、豬和擬南芥中,6mA的含量都曾被報道隨生物發育而呈現規律性波動。在斑馬魚中,5mC含量曾被報道隨個體發育遞增,而6mA則呈遞減趨勢。為了更好地檢驗該實驗結果是否受到了外源原核DNA污染所干擾,作者在另一個獨立的斑馬魚實驗室重複了該實驗。結果顯示,4mC和6mA的檢出量均低於報道水平。而與此同時,原核DNA污染量則呈現出了與4mC和6mA一致的遞減趨勢。對於該結果,作者指出斑馬魚的絨毛膜從孵育起的3天里都會暴露於存在於食物和糞便中的微生物,因此有可能成為一個原核DNA污染源,並建議先去除絨毛膜或使用70%酒精洗滌樣品後再進行檢測。

在斑馬魚的發育過程中,4mC和6mA含量呈現出了與原核DNA污染相同的變化趨勢

SMRTseq 作為常用的修飾檢測技術之一,也是本文討論的重點。鑒於SMRTseq可實現鹼基精度的數據比對,它已被廣泛應用於後生生物基因組中6mA圖譜的繪製[7, 8],不過它也顯示出了假陽率高、信噪比低等問題。為了檢驗其準確性,作者對所有樣本做了UHPLC-MS/MS處理的平行對照,結果再次暴露了SMRTseq假陽性高的缺點。大部分樣品的SMRTseq結果較UHPLC-MS/MS均出現了量級的差異。

已發表的SMRTseq數據與UHPLC-MS/MS數據比對

基於這一結果,作者重新分析了其發表於2015年,線蟲6mA SMRTseq的數據。由於原始發表的分析結果是由兩組不同的數據集(取樣自不同階段並採用了不同的樣品處理方法)整合後得出的,因此可能會損失掉部分數據資訊。將數據集獨立後重新分析,作者得出了有別於之前的結論。新分析結果顯示,X染色體以及外顯子上幾乎沒有6mA和4mC,但卻在內含子上有富集(之前的結果認為6mA在這些區域上都是均等分布),同時其測得的6mA和4mC絕對含量亦高出UHPLC-MS/MS結果數倍。綜上,作者認為,已報道的SMRTseq結果很可能都誇大了細菌中4mC以及真核生物中6mA和4mC的含量。

文章的最後,作者還檢驗了外源帶有修飾的核苷酸被整合進哺乳動物DNA這一可能性。通過向小鼠成肌細胞C2C12的培養基中額外添加甲基化腺嘌呤,連續培養5天後進行6mA檢測,結果發現培養基中添加了甲基化腺嘌呤的樣本6mA檢出量較對照組有明顯提高。這一結果與之前的報道相符,顯示外源甲基化核苷酸確實被整合進了細胞的基因組中,對其原始DNA修飾檢測數據造成了一定干擾。

6mA檢測結果顯示外源甲基化核苷可被整合進哺乳動物DNA中

包括5mC、4mC、6mA等在內的DNA修飾是目前表觀遺傳領域的研究熱點。其重要性亦逐步在染色體調控、個體發育、生物進化等方面顯現,並在朝臨床應用等方向積極擴展。但誠如文章作者通過系列實驗向我們一再強調的,只有嚴格把控實驗流程、規範化實驗操作才有助於我們取得真實有效的實驗數據。同時,反覆的修驗和辯證看待實驗數據對於推動領域內研究長遠發展都有積極作用。至於如何克服當前修飾檢測靈敏度的瓶頸,或許新型探測工具的開發會是新一輪研究的突破重點。

參考文獻

[1] O'Brown, Z.K., et al., Sources of artifact in measurements of 6mA and 4mC abundance in eukaryotic genomic DNA. BMC Genomics, 2019. 20(1): p. 445.

[2] Greer, E.L., et al., DNA Methylation on N6-Adenine in C. elegans. Cell, 2015. 161(4): p. 868-78.

[3] Zhang, G., et al., N6-methyladenine DNA modification in Drosophila. Cell, 2015. 161(4): p. 893-906.

[4] Koziol, M.J., et al., Identification of methylated deoxyadenosines in vertebrates reveals diversity in DNA modifications. Nat Struct Mol Biol, 2016. 23(1): p. 24-30.

[5] Mondo, S.J., et al., Widespread adenine N6-methylation of active genes in fungi. Nat Genet, 2017. 49(6): p. 964-968.

[6] Luo, G.Z., et al., DNA N(6)-methyladenine: a new epigenetic mark in eukaryotes? Nat Rev Mol Cell Biol, 2015. 16(12): p. 705-10.

[7] Fang, G., et al., Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing. Nat Biotechnol, 2012. 30(12): p. 1232-9.

[8] Zhu, S., et al., Mapping and characterizing N6-methyladenine in eukaryotic genomes using single-molecule real-time sequencing. Genome Res, 2018. 28(7): p. 1067-1078.

來源:公眾號「生物資訊與表觀組學」(微訊號:luolab2017)

文 / Don

編 / 陳鴻萱

審 / 奚劍飛