Nature：学术造假者瑟瑟发抖，论文图像查重AI技术重拳出击！

2020 年 9 月 18 日
AI

作者 | 青暮

编辑 | 丛末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件，他用这款软件检查了3500篇论文的21,000张图像，在4小时内查出大约400张疑似重复的图像，这项技术或许将为学术造假乱象的解决带来曙光。近日，Nature还对相关事件进行了报道。

由于利益诱惑和成本低廉，学术造假屡禁不止。在国内，学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告，中国发表SCI论文数量已居世界第二，紧追美国。截止2020年6月22日，全世界共有23425篇SCI撤稿，其中中国10303篇，占比44%。

此外，每年中国SCI论文撤稿占所有撤稿的比例也持续上升，2019年达到30%，2020年目前为止已达到33%。今年，中国已有317篇SCI论文撤稿，相对的，美国有215篇SCI论文撤稿。近三年来，剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭，目前的查重系统只能查重文字，不能查重图像。而错误则主要是指图像错误，包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种：1、重复用图；2、编造数据，用ps涂抹修图；3、花钱买论文；4、伪造审稿人。其中第一种和第二种最常用，造假成本最低，以重复用图进行学术造假的案例屡见不鲜。

2020年5月，素有“打假斗士”之称的Elisabeth Bik博士，举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达，结果却一模一样”。

2020年6月，学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示：在这24篇论文里，出现了部分实验图像在不同项目中重复出现，但标记数值不同；两幅实验图像相似度极高；不同指标的直方图完全一致的情况。基于之后董晨的回复，有知乎网友分析：他实际上委婉默认了有造假的地方，只是在造假程序或者数量上有不同的意见。

近日，网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见，图像查重对于论文审查是非常重要的一环，而纯粹靠人工审查则相当费时费力，Daniel Acuna开发的这款软件无疑是一大利器。

算法。然而当时的强化学习算法只能每次使用一种策略来训练一个智能体模型。”,”0:\”%233e3e3e\”|27:\”12\”|31:2″],[20,”\n”,”24:\”KLNL\”|linespacing:\”115\””],[20,”\n”,”24:\”ST7D\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/ullbSVWjkIev0mfy.gif”},”29:0|30:0|3:\”600\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”278\”|ori-width:\”600\””],[20,”\n”,”24:\”RwF7\”|linespacing:\”115\””],[20,”那如果想要一次训练几十上百种智能体模型（如上图所示）该怎么办？难道要训练几百次吗？”],[20,”\n”,”24:\”rOcc\”|linespacing:\”115\””],[20,”\n”,”24:\”eHYB\”|linespacing:\”115\””],[20,”近日，一篇发表在ICML 2020上的论文提出了一种方法：仅仅需要一种策略就可以同时训练所有的智能体。”],[20,”\n”,”24:\”zX5C\”|linespacing:\”115\””],[20,”\n”,”24:\”2JTN\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/0KJQqphPbRHuv0kN.png!thumbnail”},”29:0|30:0|3:\”895\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”803\”|ori-width:\”895\””],[20,”\n”,”24:\”MTuT\”|linespacing:\”115\””],[20,”这篇论文在Twitter上获得了很大的关注，观看量很快就达到了46.7K。就连宣布“封推”的LeCun转发了（他只是转发，没有说话，没说话就不算破戒[狗头护体]）”],[20,”\n”,”24:\”dcK5\”|linespacing:\”115\””],[20,”\n”,”24:\”80dR\”|linespacing:\”115\””],[20,”这项让一度退推的LeCun都忍不住转发的研究，到底是如何实现如此强大的泛化能力的呢？”],[20,”\n”,”24:\”Bd2N\”|linespacing:\”115\””],[20,”\n”,”24:\”Qwwu\”|linespacing:\”115\””],[20,”训练策略”,”8:1″],[20,”\n”,”24:\”TI3Q\”|linespacing:\”115\””],[20,”\n”,”24:\”Xi5C\”|linespacing:\”115\””],[20,”作者在论文中提出的训练策略是一种模块化共享策略SMP（Shared Modular Policies），特点是：区别于一次对整个模型进行训练的传统做法，该方法是分别对智能体的每个肢体进行训练。”],[20,”\n”,”24:\”bz0N\”|linespacing:\”115\””],[20,”\n”,”24:\”uV9W\”|linespacing:\”115\””],[20,”训练过程中同一智能体的不同肢体之间策略权重”],[20,”πθ”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”是共享的：”],[20,”\n”,”24:\”7kmj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/PFaKffqRV5Y6scxn.png!thumbnail”},”29:0|30:0|3:\”382\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”378\”|ori-width:\”382\””],[20,”\n”,”24:\”7KVu\”|linespacing:\”115\””],[20,”而不同智能体之间的策略权重”],[20,”πθ也是共享的：”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”\n”,”24:\”JGfw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/GGvlcljmGqtXF4z9.png!thumbnail”},”29:0|30:0|3:\”1260\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”526\”|ori-width:\”1260\””],[20,”\n”,”24:\”r87l\”|linespacing:\”115\””],[20,”这样一来所有智能体的所有肢体之间的权重都是共享的，之后把所有的智能体放在一起来训练：”],[20,”\n”,”24:\”rlD6\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/DEF8HYpqX1bQbEVR.png!thumbnail”},”29:0|30:0|3:\”1193\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”630\”|ori-width:\”1193\””],[20,”\n”,”24:\”QAZE\”|linespacing:\”115\””],[20,”为了确保各肢体之间能够协调统一地控制，必须允许信息能在各肢体之间传递：”],[20,”\n”,”24:\”Nq2w\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/nfVfsFqQ8uMSRRyS.png!thumbnail”},”29:0|30:0|3:\”965\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”524\”|ori-width:\”965\””],[20,”\n”,”24:\”4vEJ\”|linespacing:\”115\””],[20,”那么信息传递究竟是应该从上往下还是从下往上呢？”],[20,”\n”,”24:\”ibCf\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wHRQR4OE4vDHuKYB.png!thumbnail”},”29:0|30:0|3:\”967\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”426\”|ori-width:\”967\””],[20,”\n”,”24:\”zCj5\”|linespacing:\”115\””],[20,”不如来看一下实际效果吧：”],[20,”\n”,”24:\”teXw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wCkeGbO45Ud7GlBO.gif”},”29:0|30:0|3:\”1228\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”622\”|ori-width:\”1228\””],[20,”\n”,”24:\”cMpN\”|linespacing:\”115\””],[20,”上面是对同一组智能体分别执行从下往下和从上往下的信息传递，可以看出效果并不好。”],[20,”\n”,”24:\”SxaW\”|linespacing:\”115\””],[20,”\n”,”24:\”MxHJ\”|linespacing:\”115\””],[20,”于是作者想到干脆把两种信息传递方式结合起来：”],[20,”\n”,”24:\”YErH\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/r44PzWbhc93ekuTC.png!thumbnail”},”29:0|30:0|3:\”1255\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”492\”|ori-width:\”1255\””],[20,”\n”,”24:\”3VPj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/X2T9QjUq4ji1qXx4.png!thumbnail”},”29:0|30:0|3:\”696\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”696\””],[20,”\n”,”24:\”iEbP\”|linespacing:\”115\””],[20,”\n”,”24:\”SuGj\”|linespacing:\”115\””],[20,”两种信息传递方式共享模块化策略：”],[20,”\n”,”24:\”kp2Y\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fK5BYxYR7KTiKkhS.png!thumbnail”},”29:0|30:0|3:\”854\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”560\”|ori-width:\”854\””],[20,”\n”,”24:\”BiDc\”|linespacing:\”115\””],[20,”那么这样一来效果如何呢？”],[20,”\n”,”24:\”qGox\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/682vxigH3Jq6Kv2K.gif”},”29:0|30:0|3:\”772\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”458\”|ori-width:\”772\””],[20,”\n”,”24:\”a40M\”|linespacing:\”115\””],[20,”从上可以看出在使用双向信息传递后，一个单独的策略也能很好地控制所有的智能体，即使这些智能体的形状迥异。”],[20,”\n”,”24:\”5hk2\”|linespacing:\”115\””],[20,”\n”,”24:\”7jug\”|linespacing:\”115\””],[20,”整体模型架构”,”27:\”12\”|8:1″],[20,”\n”,”24:\”S8vp\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/6QKqY9RGjV9iIuuN.png!thumbnail”},”29:0|30:0|3:\”1461\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”529\”|ori-width:\”1461\””],[20,”\n”,”24:\”Wlfx\”|linespacing:\”115\””],[20,”如上图所示，智能体被表示为使用共享控制策略的模块化组件的集合。多个智能体控制器（左）与具有共享参数的局部模块同时训练（中），这些模块学习将消息传递给中心控制器（右）。”],[20,”\n”,”24:\”aeYp\”|linespacing:\”115\””],[20,”\n”,”24:\”UOLQ\”|33:1|linespacing:\”115\””],[20,”泛化效果”,”27:\”12\”|8:1″],[20,”\n”,”24:\”zBE4\”|linespacing:\”115\””],[20,”\n”,”24:\”uS77\”|33:1|linespacing:\”115\””],[20,”在从未训练过的智能体上面做测试，可以看出这种模块化共享策略同样能够很好的控制智能体，哪怕有些智能体的胳膊有很多或者很重。”],[20,”\n”,”24:\”Twtz\””],[20,{“gallery”:”//uploader.shimo.im/f/Sv2P6EMXxwKHqayo.gif”},”29:0|30:0|3:\”940\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”940\””],[20,”\n”,”24:\”U8dM\”|linespacing:\”115\””],[20,”另外，智能体也可以负重前行，负重的物体是在测试时直接加上去的，并没有经过训练，从下图可以看出前行效果还不错。”],[20,”\n”,”24:\”wyBQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/UTRSFz323Z5Lq1Bd.gif”},”29:0|30:0|3:\”876\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”220\”|ori-width:\”876\””],[20,”\n”,”24:\”5AJ9\”|linespacing:\”115\””],[20,”\n”,”24:\”OY1C\”|linespacing:\”115\””],[20,”但是模型的局限性同样是存在的，如果把某部分肢体变得超级大或者干脆去掉腿部的肢体，则智能体很难保持平衡。”],[20,”\n”,”24:\”auyu\”|linespacing:\”115\””],[20,”\n”,”24:\”mG5b\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/Ws7SiCYUoXqBV7BG.gif”},”29:0|30:0|3:\”1236\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”298\”|ori-width:\”1236\””],[20,”\n”,”24:\”s9mz\”|linespacing:\”115\””],[20,”\n”,”24:\”6YYW\”|linespacing:\”115\””],[20,”数据分析实证”,”27:\”12\”|8:1″],[20,”\n”,”24:\”YFBL\”|linespacing:\”115\””],[20,”\n”,”24:\”dr7L\”|linespacing:\”115\””],[20,”智能体的表现变好确实是因为”],[20,”模块化共享策略吗？”,”27:\”12\”|31:2″],[20,”\n”,”24:\”mYqa\””],[20,”\n”,”24:\”OJ7E\”|linespacing:\”115\””],[20,”下图是不同消息传递模式在同一组智能体上的比较。可以看出分散式消息传递方案（例如自上而下或自下而上）可以在一定程度上学习简单智能体的运动任务，但对于复杂的三肢和两肢变体智能体则无法学习任何有意义的信息。相反，双向消息传递可以模拟多种步态，并显示出明显的优势。”],[20,”\n”,”24:\”1fW7\””],[20,{“gallery”:”//uploader.shimo.im/f/QJ6RhdEMTqS4DQxR.png!thumbnail”},”29:0|30:0|3:\”1777\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”477\”|ori-width:\”1777\””],[20,”\n”,”24:\”spct\”|linespacing:\”115\””],[20,”下图展示了随着训练次数的增加，智能体在运动过程种进行信息传递的信息值。可以看出，智能体在运动过程中的信息值会出现峰值，这正是智能体触地时为了保持自身平衡而进行大量信息传递。这证明了”,”27:\”12\”|31:2″],[20,”信息捕捉到了与运动行为相对应的交替步态，而且在控制整个智能体姿态中起到了重要作用。”],[20,”\n”,”24:\”Mf4P\”|linespacing:\”150\””],[20,”\n”,”24:\”b2wW\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/IbBhCEqQKAj9Cale.png!thumbnail”},”29:0|30:0|3:\”1786\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”400\”|ori-width:\”1786\””],[20,”\n”,”24:\”72vx\”|linespacing:\”115\””],[20,”从上面两个数据分析图可以看出智能体的表现变好确实是因为模块化共享策略”],[20,”。”,”27:\”12\”|31:2″],[20,”\n”,”24:\”lY7q\”|linespacing:\”115\””],[20,”\n”,”24:\”95wz\”|linespacing:\”115\””],[20,”\n”,”24:\”evfj\”|linespacing:\”115\””],[20,”论文详细信息”,”27:\”12\”|8:1″],[20,”\n”,”24:\”j8P8\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/AWQtA5tOqRab63LR.png!thumbnail”},”29:0|30:0|3:\”1377\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”375\”|ori-width:\”1377\””],[20,”\n”,”24:\”MB7V\”|linespacing:\”150\””],[20,”论文地址://arxiv.org/pdf/2007.04976.pdf”],[20,”\n”,”24:\”CKW3\”|linespacing:\”150\””],[20,”开源代码：//github.com/huangwl18/modular-rl”],[20,”\n”,”24:\”r6Si\”|linespacing:\”150\””],[20,”项目主页://wenlong.page/modular-rl/”],[20,”\n”,”24:\”z1If\”|linespacing:\”150\””],[20,”论文的一作Wenlong Huang，加州大学伯克利分校大二，在伯克利人工智能实验室（BAIR ）研究计算机视觉。个人主页：”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”//wenlong.page/”],[20,”\n”,”24:\”zdOB\”|linespacing:\”150\””],[20,”\n”,”24:\”5pMy\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/qb2zWKUkmwFc6JXy.png!thumbnail”},”29:0|30:0|3:\”941\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”912\”|ori-width:\”941\””],[20,”\n”,”24:\”h5iC\”|linespacing:\”115\””],[20,”\n”,”24:\”Qy6T\”|linespacing:\”115\””],[20,”\n”,”24:\”r5JL\”|linespacing:\”115\””],[20,”延申思考”,”27:\”13\”|8:1″],[20,”\n”,”24:\”nxSC\”|linespacing:\”115\””],[20,”\n”,”24:\”NCjA\”|linespacing:\”115\””],[20,”作者在论文之外说到这种共享模块化策略是可以从自然界之中看到。”],[20,”\n”,”24:\”i0rj\””],[20,”\n”,”24:\”tnxo\””],[20,”如下图，昆虫、人、袋鼠等都是有不同肢体组成的。”],[20,”\n”,”24:\”xM56\””],[20,{“gallery”:”//uploader.shimo.im/f/Maf7n3cC4MxiJvnZ.png!thumbnail”},”29:0|30:0|3:\”1130\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”696\”|ori-width:\”1130\””],[20,”\n”,”24:\”NLMe\”|linespacing:\”115\””],[20,”如下图，马和长颈鹿可以在出生不久之后就能走路跑步，动物这种强大的运动学习能力是一种强化学习的体现，那么动物运动能力这块是不是如作者提出的是共享策略模块呢？”],[20,”\n”,”24:\”RxVs\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/N9lJ93SvXzHlWErk.png!thumbnail”},”29:0|30:0|3:\”1303\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”756\”|ori-width:\”1303\””],[20,”\n”,”24:\”MxBq\”|linespacing:\”115\””],[20,”\n”,”24:\”mlSa\”|linespacing:\”115\””],[20,”作者提出的共享策略模块表现出了强大的泛化能力，可以说是强化学习的一种新范式，然而实验环境是在完美的平面上，这种条件过于理想。”],[20,”\n”,”24:\”6veI\”|linespacing:\”115\””],[20,”\n”,”24:\”56mH\”|linespacing:\”115\””],[20,”如果是类比DeepMind之前做的AI跑酷的环境，那么作者的模型还能实现很好的效果吗？还能一种策略控制所有的智能体吗？”],[20,”\n”,”24:\”0tNR\”|linespacing:\”115\””],[20,”\n”,”24:\”KYNO\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fHux5ojqrgvNHLw2.gif”},”29:0|30:0|3:\”583px\”|4:\”389px\”|crop:\”\”|frame:\”none\”|ori-height:\”267\”|ori-width:\”400\””],[20,”\n”,”24:\”HGPD\”|linespacing:\”115\””],[20,”\n”,”24:\”pwC0\”|linespacing:\”115\””],[20,”抛开上面不谈，来思考一下作者目前提出模型的可应用场景：”],[20,”\n”,”24:\”OqwQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/jVzLbV9ReY0v5BrZ.gif”},”29:0|30:0|3:\”644\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”302\”|ori-width:\”644\””],[20,”\n”,”24:\”40oJ\”|linespacing:\”115\””],[20,”\n”,”24:\”tWkz\”|linespacing:\”115\””],[20,”用作者的模型来同时生成上百只奇行种的运动场景，想想就很有趣。”],[20,”\n”,”24:\”tg95\”|linespacing:\”115\””],[20,”\n”,”24:\”3GiT\”|linespacing:\”150\””],[20,”\n”,”24:\”NbyC\”|linespacing:\”115\””],[20,”参考链接：”],[20,”\n”,”24:\”QxE5\”|linespacing:\”115\””],[20,”\n”,”24:\”dKxm\”|linespacing:\”115\””],[20,”//www.reddit.com/r/MachineLearning/comments/hpajb2/r_one_policy_to_control_them_all_shared_modular/”],[20,”\n”,”24:\”BhFb\”|linespacing:\”115\””],[20,”\n”,”24:\”IUmx\”|linespacing:\”115\””],[20,”//www.youtube.com/watch?v=gEeQ0nzalzo&feature=youtu.be”]]” style=”letter-spacing: 0.5px;font-size: 18px;”>工作初衷：为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作，纽约雪城大学信息研究学院的助理教授Daniel Acuna 开发了一个能够对论文中的图像进行查重的程序，据悉，现在这项程序已被应用在全球的新冠病毒相关论文的预印本上。

对于开发这项程序的初衷，Daniel Acuna 表示：“我无法阻止疫情，只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像，翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误，也可能是不当行为的结果。原本这项工作通常由专家人工检查，或用软件检查少量论文中的图像。

但需要注意的是，目前这项程序仍处于试验阶段，正在接受期刊和研究机构的测试。

查重结果存有争议

到目前为止，这项工作取得了一定程度的成功，但也引起了一些争议。

今年6月，Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本，用他的软件查重了21,000张图像。在4小时内，该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题，他选择了24篇包含可疑重复图像的论文。

7月，他在自己的网站上发布了这些内容，并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说，Daniel Acuna的软件确实查出了重复的图像，他们将纠正错误，不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giuseppe Ballistreri 对于这项技术，也持肯定态度，他表示，“如果该工具被证明是准确的，则应默认在PubMed中应用。”PubMed 是一个免费的搜索引擎，提供生物医学方面的论文搜索以及摘要。

另一方面，也有其他人指出，这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名，她表示，希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道，该软件“仍然需要人工监督，以确保它不会错误地将适当的重复图像标记为不适当”。

对于 Elisabeth BikBik 的观点，Daniel Acuna 表示同意：软件标记的内容始终需要人来审核，并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出，Daniel Acuna的软件完全弄错了，而且标记了相似但不匹配的图像。例如，北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果，该论文包含同一分子的相似视角图。

随后，Daniel Acuna从他的网站上删除了大约三分之一的检查结果，并将该网站的列表设置为私人访问。如此，只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言，这项研究论文的自动筛选技术远非完美，而且“仍然需要专家来解释和理解”。此外，德国海德堡的图像分析师 Jana Christopher 也指出了该技术的另一局限性：自动图像检查算法仍然过于专注于查找重复项，并且还不能应对所有图像处理手段。

再接再厉

除了技术上的不完美性，Daniel Acuna 本人还指出了影响软件的准确性的一个外在因素：PDF文件格式会破坏自动提取图像的能力。例如，今年5月，Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题，该图像也出现在2月份的预印本中，但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止，关于新冠病毒的研究产生了无数的论文，许多研究人员担心出现低质量的研究和错误，甚至欺诈。有科学家发出警告：“质量低劣的研究将泛滥成灾”。

接下来，Daniel Acuna 打算继续进行论文重复图像的自动检查，而之后首先要做的事情，就是将查重结果告知作者，只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象，Daniel Acuna 也发出了告诫：“我希望那些正在动歪脑筋的论文作者们意识到，有人正在对论文图像进行查重。”

参考内容：//www.nature.com/articles/d41586-020-02161-3

雷锋网雷锋网雷锋网