实验和检测技术带来的高假阳性乌云:6mA是否真的在哺乳动物中广泛存在?

去年6月,哈佛医学院Eric L. Greer研究组发表了题为Sources of artifact in measurements of 6mA and 4mC abundance in eukaryotic genomic DNA的文章,重点探讨了常用修饰检测技术在检测6mA和4mC等核酸修饰时可能引入的误差,并从实验操作、系统误差、数据分析等方面展开了讨论[1]。作者通过优化检测方法重新核验了部分已发表的DNA修饰数据(包括Eric Greer 本人2015年在Cell上发表的线虫6mA数据[2]),发现已有的研究报道中确实存在假阳性结果,而由此得出的生物学推论也需要更谨慎的论证。该工作提出的观点对于关注核酸修饰研究领域发展的学者们有重要参考意义。

DNA修饰已被报道可参与多种原核、真核生物的重要生命过程,包括基因转录、X染色体沉默、基因印记等。根据现有报道,在哺乳动物基因组中5mC含量约占3-8%,而6mA则在真菌、拟南芥、线虫、果蝇、蛙、斑马鱼等多细胞生物中被陆续检出[2-5]。目前,常用于修饰检测的实验技术包括超高效液相色谱-串联质谱检测(UHPLC-MS/MS)、特异性抗体结合、单分子实时测序(SMRTseq/ONT)、修饰敏感性酶切等。这些方法都各具优缺点,特别是对于6mA或4mC等真核生物DNA上含量较低的修饰,往往需要联合使用多种检测手段以获得更可靠的结果[6]。

作为修饰碱基检验的金标准,UHPLC-MS/MS本身的灵敏性和特异性受到研究者的广泛认可。然而,这一方法需要对DNA样品进行预处理,利用核酸酶把DNA链消化成单碱基。这一过程不仅丢失了DNA的序列信息,而且可能引入外源性核酸修饰污染。因此,作者首先评估了三种常用于对样品进行消化处理的商用酶组合:Nuclease P1 (Wako USA) +碱性磷酸酶(Sigma-Aldrich),Nuclease S1 (ThermoScientific)+快速碱性磷酸酶(FastAP, Thermo Scientific),DNA degradase plus (Zymo Research)+碱性磷酸酶 (Sigma-Aldrich)。分析结果显示所有酶组合无一例外均携带有不同程度的外源DNA污染。第一种酶组合作为DNA修饰检测中使用最广泛的组合,其处理组测得了最高的6mA和4mC修饰水平。其中6mA达50nmol,5mC/3mC达495nmol,均比其他两种酶组合高出一个量级,4mC的检出维持在较低水平(约5nmol)。在其他两种酶组合中,4mC的检出均低于可检测水平。鉴于此结果,作者选择采用DNA degradase plus+碱性磷酸酶这种组合进行后续的实验,并加设仅含酶和水的空白对照组。

三种商用酶组合均携带不同程度的DNA修饰污染

下一步,他们基于优化后的UHPLC-MS/MS系统搭配使用DNA degradase plus+碱性磷酸酶做样品处理,重新测定了16种真核生物DNA样品的修饰数据,其中包括衣藻、线虫、昆虫、两栖类、鸟类、啮齿类和人的样本,并以野生型E. coli 和 dam−dcm− 双缺陷型E. coli 的数据作为对照。结果显示,真核生物中,仅莱茵衣藻的样本显示出了较高的6mA含量(0.13-0.34%),其余样本数据均在0.00003–0.0004%左右,有的甚至低于可检测范围。而测得的5mC含量则与之前报道较为一致:除在三种酵母样本中未检出外,其他样本均测得较高含量(1.7–7%),说明5mC确实为真核生物主要的DNA修饰类型。

用优化后的UHPLC-MS/MS对16个真核生物样本和2个原核生物样本测得的6mA和5mC数据

为了尽可能排除原核DNA污染的干扰,作者还特意设计了针对原核生物16S rRNA的引物对样本进行RT-PCR,并尝试检测来自无菌小鼠DNA样本和HEK 293T 细胞DNA中6mA含量。RT-PCR的实验结果表明,所有样品均受到一定程度的原核DNA污染,尽管对实验操作进行了严格的把控,污染依旧无法彻底排除。不过对于原核DNA污染量在2%以下的真核生物样本而言,DNA修饰水平与原核DNA污染量并不存在明显的正相关关系。

由于该实验中测得的真核生物6mA含量均很低,所以作者不排除目前已报道的部分真核生物6mA修饰很可能也是由实验操作误差所致。作者认为严格的样本处理方法以及设置恰当的实验对照组对于检测DNA修饰水平是保证数据准确性的关键,同时更灵敏、更精确的检测方法亦有待开发。

随后,作者又探究了超声破碎处理对DNA修饰数据的影响。他们发现,在包括小鼠、人等理论上不含有4mC的真核生物核DNA质谱图中均出现了一个比4mC标准峰滞后0.04–0.05分钟的亚峰,作者将其对应的组分命名为mC*。由于mC*峰仅出现在5mC含量较高的样品中,所以作者推断mC*是5mC超声破碎造成的副产品。进一步实验分析表明,mC*的确随样品5mC的含量变化而波动。虽然目前已经排除了由dNTP造成mC*峰的可能性,但其准确的分子组分尚无法确定。

左图显示了mC*峰,右图显示超声破碎后样本中mC*含量明显增加

在接下来的实验里,作者将目光转向了发育过程中的修饰水平检测。在果蝇、斑马鱼、猪和拟南芥中,6mA的含量都曾被报道随生物发育而呈现规律性波动。在斑马鱼中,5mC含量曾被报道随个体发育递增,而6mA则呈递减趋势。为了更好地检验该实验结果是否受到了外源原核DNA污染所干扰,作者在另一个独立的斑马鱼实验室重复了该实验。结果显示,4mC和6mA的检出量均低于报道水平。而与此同时,原核DNA污染量则呈现出了与4mC和6mA一致的递减趋势。对于该结果,作者指出斑马鱼的绒毛膜从孵育起的3天里都会暴露于存在于食物和粪便中的微生物,因此有可能成为一个原核DNA污染源,并建议先去除绒毛膜或使用70%酒精洗涤样品后再进行检测。

在斑马鱼的发育过程中,4mC和6mA含量呈现出了与原核DNA污染相同的变化趋势

SMRTseq 作为常用的修饰检测技术之一,也是本文讨论的重点。鉴于SMRTseq可实现碱基精度的数据比对,它已被广泛应用于后生生物基因组中6mA图谱的绘制[7, 8],不过它也显示出了假阳率高、信噪比低等问题。为了检验其准确性,作者对所有样本做了UHPLC-MS/MS处理的平行对照,结果再次暴露了SMRTseq假阳性高的缺点。大部分样品的SMRTseq结果较UHPLC-MS/MS均出现了量级的差异。

已发表的SMRTseq数据与UHPLC-MS/MS数据比对

基于这一结果,作者重新分析了其发表于2015年,线虫6mA SMRTseq的数据。由于原始发表的分析结果是由两组不同的数据集(采样自不同阶段并采用了不同的样品处理方法)整合后得出的,因此可能会损失掉部分数据信息。将数据集独立后重新分析,作者得出了有别于之前的结论。新分析结果显示,X染色体以及外显子上几乎没有6mA和4mC,但却在内含子上有富集(之前的结果认为6mA在这些区域上都是均等分布),同时其测得的6mA和4mC绝对含量亦高出UHPLC-MS/MS结果数倍。综上,作者认为,已报道的SMRTseq结果很可能都夸大了细菌中4mC以及真核生物中6mA和4mC的含量。

文章的最后,作者还检验了外源带有修饰的核苷酸被整合进哺乳动物DNA这一可能性。通过向小鼠成肌细胞C2C12的培养基中额外添加甲基化腺嘌呤,连续培养5天后进行6mA检测,结果发现培养基中添加了甲基化腺嘌呤的样本6mA检出量较对照组有明显提高。这一结果与之前的报道相符,显示外源甲基化核苷酸确实被整合进了细胞的基因组中,对其原始DNA修饰检测数据造成了一定干扰。

6mA检测结果显示外源甲基化核苷可被整合进哺乳动物DNA中

包括5mC、4mC、6mA等在内的DNA修饰是目前表观遗传领域的研究热点。其重要性亦逐步在染色体调控、个体发育、生物进化等方面显现,并在朝临床应用等方向积极扩展。但诚如文章作者通过系列实验向我们一再强调的,只有严格把控实验流程、规范化实验操作才有助于我们取得真实有效的实验数据。同时,反复的修验和辩证看待实验数据对于推动领域内研究长远发展都有积极作用。至于如何克服当前修饰检测灵敏度的瓶颈,或许新型探测工具的开发会是新一轮研究的突破重点。

参考文献

[1] O'Brown, Z.K., et al., Sources of artifact in measurements of 6mA and 4mC abundance in eukaryotic genomic DNA. BMC Genomics, 2019. 20(1): p. 445.

[2] Greer, E.L., et al., DNA Methylation on N6-Adenine in C. elegans. Cell, 2015. 161(4): p. 868-78.

[3] Zhang, G., et al., N6-methyladenine DNA modification in Drosophila. Cell, 2015. 161(4): p. 893-906.

[4] Koziol, M.J., et al., Identification of methylated deoxyadenosines in vertebrates reveals diversity in DNA modifications. Nat Struct Mol Biol, 2016. 23(1): p. 24-30.

[5] Mondo, S.J., et al., Widespread adenine N6-methylation of active genes in fungi. Nat Genet, 2017. 49(6): p. 964-968.

[6] Luo, G.Z., et al., DNA N(6)-methyladenine: a new epigenetic mark in eukaryotes? Nat Rev Mol Cell Biol, 2015. 16(12): p. 705-10.

[7] Fang, G., et al., Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing. Nat Biotechnol, 2012. 30(12): p. 1232-9.

[8] Zhu, S., et al., Mapping and characterizing N6-methyladenine in eukaryotic genomes using single-molecule real-time sequencing. Genome Res, 2018. 28(7): p. 1067-1078.

来源:公众号“生物信息与表观组学”(微信号:luolab2017)

文 / Don

编 / 陈鸿萱

审 / 奚剑飞