Nature:學術造假者瑟瑟發抖,論文影像查重AI技術重拳出擊!
來自紐約雪城大學的機器學習研究人員Daniel Acuna開發了一款論文影像查重軟體,他用這款軟體檢查了3500篇論文的21,000張影像,在4小時內查出大約400張疑似重複的影像,這項技術或許將為學術造假亂象的解決帶來曙光。近日,Nature還對相關事件進行了報道。
由於利益誘惑和成本低廉,學術造假屢禁不止。在中國,學術造假的最終結果幾乎都是不了了之。
根據中國科學技術資訊研究所的報告,中國發表SCI論文數量已居世界第二,緊追美國。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中國10303篇,佔比44%。
此外,每年中國SCI論文撤稿占所有撤稿的比例也持續上升,2019年達到30%,2020年目前為止已達到33%。今年,中國已有317篇SCI論文撤稿,相對的,美國有215篇SCI論文撤稿。近三年來,剽竊和錯誤是中國SCI論文撤稿的首要原因。
其中剽竊主要是指文字抄襲,目前的查重系統只能查重文字,不能查重影像。而錯誤則主要是指 影像錯誤,包括經過PS然後重複使用的影像。
學術論文造假手段常用的有四種:1、重複用圖;2、編造數據,用ps塗抹修圖;3、花錢買論文;4、偽造審稿人。其中第一種和第二種最常用,造假成本最低,以重複用圖進行學術造假的案例屢見不鮮。
2020年5月, 素有「打假鬥士」之稱的Elisabeth Bik博士,舉報中國8篇論文 「不同作者、不同大學所屬醫院、不同癌種、不同蛋白表達,結果卻一模一樣」。
2020年6月,學術打假網站PubPeer上有人質疑清華大學醫學院院長董晨24篇文章有些實驗影像存在問題。舉報者表示:在這24篇論文里,出現了部分實驗影像在不同項目中重複出現,但標記數值不同;兩幅實驗影像相似度極高;不同指標的直方圖完全一致的情況。基於之後董晨的回復,有知乎網友分析:他實際上委婉默認了有造假的地方,只是在造假程式或者數量上有不同的意見。
近日,網傳Pubpeer 曝出北京大學常務副校長、中國工程院院士詹啟敏的 25 篇論文涉嫌學術造假。這25篇論文被懷疑將相同影像修改後應用於不同實驗甚至不同論文中。
可見,影像查重對於論文審查是非常重要的一環,而純粹靠人工審查則相當費時費力,Daniel Acuna開發的這款軟體無疑是一大利器。
演算法。然而當時的強化學習演算法只能每次使用一種策略來訓練一個智慧體模型。”,”0:\”%233e3e3e\”|27:\”12\”|31:2″],[20,”\n”,”24:\”KLNL\”|linespacing:\”115\””],[20,”\n”,”24:\”ST7D\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/ullbSVWjkIev0mfy.gif”},”29:0|30:0|3:\”600\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”278\”|ori-width:\”600\””],[20,”\n”,”24:\”RwF7\”|linespacing:\”115\””],[20,”那如果想要一次訓練幾十上百種智慧體模型(如上圖所示)該怎麼辦?難道要訓練幾百次嗎?”],[20,”\n”,”24:\”rOcc\”|linespacing:\”115\””],[20,”\n”,”24:\”eHYB\”|linespacing:\”115\””],[20,”近日,一篇發表在ICML 2020上的論文提出了一種方法:僅僅需要一種策略就可以同時訓練所有的智慧體。”],[20,”\n”,”24:\”zX5C\”|linespacing:\”115\””],[20,”\n”,”24:\”2JTN\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/0KJQqphPbRHuv0kN.png!thumbnail”},”29:0|30:0|3:\”895\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”803\”|ori-width:\”895\””],[20,”\n”,”24:\”MTuT\”|linespacing:\”115\””],[20,”這篇論文在Twitter上獲得了很大的關注,觀看量很快就達到了46.7K。就連宣布「封推」的LeCun轉發了(他只是轉發,沒有說話,沒說話就不算破戒[狗頭護體])”],[20,”\n”,”24:\”dcK5\”|linespacing:\”115\””],[20,”\n”,”24:\”80dR\”|linespacing:\”115\””],[20,”這項讓一度退推的LeCun都忍不住轉發的研究,到底是如何實現如此強大的泛化能力的呢?”],[20,”\n”,”24:\”Bd2N\”|linespacing:\”115\””],[20,”\n”,”24:\”Qwwu\”|linespacing:\”115\””],[20,”訓練策略”,”8:1″],[20,”\n”,”24:\”TI3Q\”|linespacing:\”115\””],[20,”\n”,”24:\”Xi5C\”|linespacing:\”115\””],[20,”作者在論文中提出的訓練策略是一種模組化共享策略SMP(Shared Modular Policies),特點是:區別於一次對整個模型進行訓練的傳統做法,該方法是分別對智慧體的每個肢體進行訓練。”],[20,”\n”,”24:\”bz0N\”|linespacing:\”115\””],[20,”\n”,”24:\”uV9W\”|linespacing:\”115\””],[20,”訓練過程中同一智慧體的不同肢體之間策略權重”],[20,”πθ”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”是共享的:”],[20,”\n”,”24:\”7kmj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/PFaKffqRV5Y6scxn.png!thumbnail”},”29:0|30:0|3:\”382\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”378\”|ori-width:\”382\””],[20,”\n”,”24:\”7KVu\”|linespacing:\”115\””],[20,”而不同智慧體之間的策略權重”],[20,”πθ也是共享的:”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”\n”,”24:\”JGfw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/GGvlcljmGqtXF4z9.png!thumbnail”},”29:0|30:0|3:\”1260\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”526\”|ori-width:\”1260\””],[20,”\n”,”24:\”r87l\”|linespacing:\”115\””],[20,”這樣一來所有智慧體的所有肢體之間的權重都是共享的,之後把所有的智慧體放在一起來訓練:”],[20,”\n”,”24:\”rlD6\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/DEF8HYpqX1bQbEVR.png!thumbnail”},”29:0|30:0|3:\”1193\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”630\”|ori-width:\”1193\””],[20,”\n”,”24:\”QAZE\”|linespacing:\”115\””],[20,”為了確保各肢體之間能夠協調統一地控制,必須允許資訊能在各肢體之間傳遞:”],[20,”\n”,”24:\”Nq2w\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/nfVfsFqQ8uMSRRyS.png!thumbnail”},”29:0|30:0|3:\”965\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”524\”|ori-width:\”965\””],[20,”\n”,”24:\”4vEJ\”|linespacing:\”115\””],[20,”那麼資訊傳遞究竟是應該從上往下還是從下往上呢?”],[20,”\n”,”24:\”ibCf\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wHRQR4OE4vDHuKYB.png!thumbnail”},”29:0|30:0|3:\”967\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”426\”|ori-width:\”967\””],[20,”\n”,”24:\”zCj5\”|linespacing:\”115\””],[20,”不如來看一下實際效果吧:”],[20,”\n”,”24:\”teXw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wCkeGbO45Ud7GlBO.gif”},”29:0|30:0|3:\”1228\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”622\”|ori-width:\”1228\””],[20,”\n”,”24:\”cMpN\”|linespacing:\”115\””],[20,”上面是對同一組智慧體分別執行從下往下和從上往下的資訊傳遞,可以看出效果並不好。”],[20,”\n”,”24:\”SxaW\”|linespacing:\”115\””],[20,”\n”,”24:\”MxHJ\”|linespacing:\”115\””],[20,”於是作者想到乾脆把兩種資訊傳遞方式結合起來:”],[20,”\n”,”24:\”YErH\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/r44PzWbhc93ekuTC.png!thumbnail”},”29:0|30:0|3:\”1255\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”492\”|ori-width:\”1255\””],[20,”\n”,”24:\”3VPj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/X2T9QjUq4ji1qXx4.png!thumbnail”},”29:0|30:0|3:\”696\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”696\””],[20,”\n”,”24:\”iEbP\”|linespacing:\”115\””],[20,”\n”,”24:\”SuGj\”|linespacing:\”115\””],[20,”兩種資訊傳遞方式共享模組化策略:”],[20,”\n”,”24:\”kp2Y\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fK5BYxYR7KTiKkhS.png!thumbnail”},”29:0|30:0|3:\”854\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”560\”|ori-width:\”854\””],[20,”\n”,”24:\”BiDc\”|linespacing:\”115\””],[20,”那麼這樣一來效果如何呢?”],[20,”\n”,”24:\”qGox\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/682vxigH3Jq6Kv2K.gif”},”29:0|30:0|3:\”772\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”458\”|ori-width:\”772\””],[20,”\n”,”24:\”a40M\”|linespacing:\”115\””],[20,”從上可以看出在使用雙向資訊傳遞後,一個單獨的策略也能很好地控制所有的智慧體,即使這些智慧體的形狀迥異。”],[20,”\n”,”24:\”5hk2\”|linespacing:\”115\””],[20,”\n”,”24:\”7jug\”|linespacing:\”115\””],[20,”整體模型架構”,”27:\”12\”|8:1″],[20,”\n”,”24:\”S8vp\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/6QKqY9RGjV9iIuuN.png!thumbnail”},”29:0|30:0|3:\”1461\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”529\”|ori-width:\”1461\””],[20,”\n”,”24:\”Wlfx\”|linespacing:\”115\””],[20,”如上圖所示,智慧體被表示為使用共享控制策略的模組化組件的集合。多個智慧體控制器(左)與具有共享參數的局部模組同時訓練(中),這些模組學習將消息傳遞給中心控制器(右)。”],[20,”\n”,”24:\”aeYp\”|linespacing:\”115\””],[20,”\n”,”24:\”UOLQ\”|33:1|linespacing:\”115\””],[20,”泛化效果”,”27:\”12\”|8:1″],[20,”\n”,”24:\”zBE4\”|linespacing:\”115\””],[20,”\n”,”24:\”uS77\”|33:1|linespacing:\”115\””],[20,”在從未訓練過的智慧體上面做測試,可以看出這種模組化共享策略同樣能夠很好的控制智慧體,哪怕有些智慧體的胳膊有很多或者很重。”],[20,”\n”,”24:\”Twtz\””],[20,{“gallery”:”//uploader.shimo.im/f/Sv2P6EMXxwKHqayo.gif”},”29:0|30:0|3:\”940\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”940\””],[20,”\n”,”24:\”U8dM\”|linespacing:\”115\””],[20,”另外,智慧體也可以負重前行,負重的物體是在測試時直接加上去的,並沒有經過訓練,從下圖可以看出前行效果還不錯。”],[20,”\n”,”24:\”wyBQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/UTRSFz323Z5Lq1Bd.gif”},”29:0|30:0|3:\”876\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”220\”|ori-width:\”876\””],[20,”\n”,”24:\”5AJ9\”|linespacing:\”115\””],[20,”\n”,”24:\”OY1C\”|linespacing:\”115\””],[20,”但是模型的局限性同樣是存在的,如果把某部分肢體變得超級大或者乾脆去掉腿部的肢體,則智慧體很難保持平衡。”],[20,”\n”,”24:\”auyu\”|linespacing:\”115\””],[20,”\n”,”24:\”mG5b\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/Ws7SiCYUoXqBV7BG.gif”},”29:0|30:0|3:\”1236\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”298\”|ori-width:\”1236\””],[20,”\n”,”24:\”s9mz\”|linespacing:\”115\””],[20,”\n”,”24:\”6YYW\”|linespacing:\”115\””],[20,”數據分析實證”,”27:\”12\”|8:1″],[20,”\n”,”24:\”YFBL\”|linespacing:\”115\””],[20,”\n”,”24:\”dr7L\”|linespacing:\”115\””],[20,”智慧體的表現變好確實是因為”],[20,”模組化共享策略嗎?”,”27:\”12\”|31:2″],[20,”\n”,”24:\”mYqa\””],[20,”\n”,”24:\”OJ7E\”|linespacing:\”115\””],[20,”下圖是不同消息傳遞模式在同一組智慧體上的比較。可以看出分散式消息傳遞方案(例如自上而下或自下而上)可以在一定程度上學習簡單智慧體的運動任務,但對於複雜的三肢和兩肢變體智慧體則無法學習任何有意義的資訊。相反,雙向消息傳遞可以模擬多種步態,並顯示出明顯的優勢。”],[20,”\n”,”24:\”1fW7\””],[20,{“gallery”:”//uploader.shimo.im/f/QJ6RhdEMTqS4DQxR.png!thumbnail”},”29:0|30:0|3:\”1777\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”477\”|ori-width:\”1777\””],[20,”\n”,”24:\”spct\”|linespacing:\”115\””],[20,”下圖展示了隨著訓練次數的增加,智慧體在運動過程種進行資訊傳遞的資訊值。可以看出,智慧體在運動過程中的資訊值會出現峰值,這正是智慧體觸地時為了保持自身平衡而進行大量資訊傳遞。 這證明了”,”27:\”12\”|31:2″],[20,”資訊捕捉到了與運動行為相對應的交替步態,而且在控制整個智慧體姿態中起到了重要作用。”],[20,”\n”,”24:\”Mf4P\”|linespacing:\”150\””],[20,”\n”,”24:\”b2wW\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/IbBhCEqQKAj9Cale.png!thumbnail”},”29:0|30:0|3:\”1786\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”400\”|ori-width:\”1786\””],[20,”\n”,”24:\”72vx\”|linespacing:\”115\””],[20,”從上面兩個數據分析圖可以看出智慧體的表現變好確實是因為模組化共享策略”],[20,”。”,”27:\”12\”|31:2″],[20,”\n”,”24:\”lY7q\”|linespacing:\”115\””],[20,”\n”,”24:\”95wz\”|linespacing:\”115\””],[20,”\n”,”24:\”evfj\”|linespacing:\”115\””],[20,”論文詳細資訊”,”27:\”12\”|8:1″],[20,”\n”,”24:\”j8P8\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/AWQtA5tOqRab63LR.png!thumbnail”},”29:0|30:0|3:\”1377\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”375\”|ori-width:\”1377\””],[20,”\n”,”24:\”MB7V\”|linespacing:\”150\””],[20,”論文地址://arxiv.org/pdf/2007.04976.pdf”],[20,”\n”,”24:\”CKW3\”|linespacing:\”150\””],[20,”開源程式碼://github.com/huangwl18/modular-rl”],[20,”\n”,”24:\”r6Si\”|linespacing:\”150\””],[20,”項目主頁://wenlong.page/modular-rl/”],[20,”\n”,”24:\”z1If\”|linespacing:\”150\””],[20,”論文的一作Wenlong Huang,加州大學伯克利分校大二,在伯克利人工智慧實驗室 (BAIR )研究電腦視覺。 個人主頁:”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”//wenlong.page/”],[20,”\n”,”24:\”zdOB\”|linespacing:\”150\””],[20,”\n”,”24:\”5pMy\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/qb2zWKUkmwFc6JXy.png!thumbnail”},”29:0|30:0|3:\”941\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”912\”|ori-width:\”941\””],[20,”\n”,”24:\”h5iC\”|linespacing:\”115\””],[20,”\n”,”24:\”Qy6T\”|linespacing:\”115\””],[20,”\n”,”24:\”r5JL\”|linespacing:\”115\””],[20,”延申思考”,”27:\”13\”|8:1″],[20,”\n”,”24:\”nxSC\”|linespacing:\”115\””],[20,”\n”,”24:\”NCjA\”|linespacing:\”115\””],[20,”作者在論文之外說到這種共享模組化策略是可以從自然界之中看到。”],[20,”\n”,”24:\”i0rj\””],[20,”\n”,”24:\”tnxo\””],[20,”如下圖,昆蟲、人、袋鼠等都是有不同肢體組成的。”],[20,”\n”,”24:\”xM56\””],[20,{“gallery”:”//uploader.shimo.im/f/Maf7n3cC4MxiJvnZ.png!thumbnail”},”29:0|30:0|3:\”1130\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”696\”|ori-width:\”1130\””],[20,”\n”,”24:\”NLMe\”|linespacing:\”115\””],[20,”如下圖,馬和長頸鹿可以在出生不久之後就能走路跑步,動物這種強大的運動學習能力是一種強化學習的體現,那麼動物運動能力這塊是不是如作者提出的是共享策略模組呢?”],[20,”\n”,”24:\”RxVs\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/N9lJ93SvXzHlWErk.png!thumbnail”},”29:0|30:0|3:\”1303\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”756\”|ori-width:\”1303\””],[20,”\n”,”24:\”MxBq\”|linespacing:\”115\””],[20,”\n”,”24:\”mlSa\”|linespacing:\”115\””],[20,”作者提出的共享策略模組表現出了強大的泛化能力,可以說是強化學習的一種新範式,然而實驗環境是在完美的平面上,這種條件過於理想。”],[20,”\n”,”24:\”6veI\”|linespacing:\”115\””],[20,”\n”,”24:\”56mH\”|linespacing:\”115\””],[20,”如果是類比DeepMind之前做的AI跑酷的環境,那麼作者的模型還能實現很好的效果嗎?還能一種策略控制所有的智慧體嗎?”],[20,”\n”,”24:\”0tNR\”|linespacing:\”115\””],[20,”\n”,”24:\”KYNO\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fHux5ojqrgvNHLw2.gif”},”29:0|30:0|3:\”583px\”|4:\”389px\”|crop:\”\”|frame:\”none\”|ori-height:\”267\”|ori-width:\”400\””],[20,”\n”,”24:\”HGPD\”|linespacing:\”115\””],[20,”\n”,”24:\”pwC0\”|linespacing:\”115\””],[20,”拋開上面不談,來思考一下作者目前提出模型的可應用場景:”],[20,”\n”,”24:\”OqwQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/jVzLbV9ReY0v5BrZ.gif”},”29:0|30:0|3:\”644\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”302\”|ori-width:\”644\””],[20,”\n”,”24:\”40oJ\”|linespacing:\”115\””],[20,”\n”,”24:\”tWkz\”|linespacing:\”115\””],[20,”用作者的模型來同時生成上百隻奇行種的運動場景,想想就很有趣。”],[20,”\n”,”24:\”tg95\”|linespacing:\”115\””],[20,”\n”,”24:\”3GiT\”|linespacing:\”150\””],[20,”\n”,”24:\”NbyC\”|linespacing:\”115\””],[20,”參考鏈接:”],[20,”\n”,”24:\”QxE5\”|linespacing:\”115\””],[20,”\n”,”24:\”dKxm\”|linespacing:\”115\””],[20,”//www.reddit.com/r/MachineLearning/comments/hpajb2/r_one_policy_to_control_them_all_shared_modular/”],[20,”\n”,”24:\”BhFb\”|linespacing:\”115\””],[20,”\n”,”24:\”IUmx\”|linespacing:\”115\””],[20,”//www.youtube.com/watch?v=gEeQ0nzalzo&feature=youtu.be”]]” style=”letter-spacing: 0.5px;font-size: 18px;”>工作初衷:為疫情防治貢獻一份力
由於擔心關於COVID-19的研究論文可能存在過多的草率工作,紐約雪城大學資訊研究學院的助理教授Daniel Acuna 開發了一個能夠對論文中的影像進行查重的程式,據悉,現在這項程式已被應用在全球的新冠病毒相關論文的預印本上。
對於開發這項程式的初衷,Daniel Acuna 表示:「我無法阻止疫情,只能以自己的方式做出貢獻。」
該演算法可一次篩選成千上萬張論文以匹配影像,翻轉、調整大小或旋轉的影像也可以進行匹配。
這些重複影像可能是無意的失誤,也可能是不當行為的結果。原本這項工作通常由專家人工檢查,或用軟體檢查少量論文中的影像。
但需要注意的是,目前這項程式仍處於試驗階段,正在接受期刊和研究機構的測試。
到目前為止,這項工作取得了一定程度的成功,但也引起了一些爭議。
今年6月,Daniel Acuna從bioRxiv和medRxiv伺服器上下載了3500個預印本,用他的軟體查重了21,000張影像。在4小時內,該軟體就查出了大約400張可能重複的影像。不過大多數結果都沒有問題,他選擇了24篇包含可疑重複影像的論文。
7月,他在自己的網站上發布了這些內容,並在PubPeer上公開。
這件事隨後引起了轟動。一些論文作者回應說,Daniel Acuna的軟體確實查出了重複的影像,他們將糾正錯誤,不過也有一些錯誤已經在同行評審版本中得到糾正。
芬蘭赫爾辛基大學的病毒學家Giuseppe Ballistreri 對於這項技術,也持肯定態度,他表示,「如果該工具被證明是準確的,則應默認在PubMed中應用。」PubMed 是一個免費的搜索引擎,提供生物醫學方面的論文搜索以及摘要。
另一方面,也有其他人指出,這些重複不是錯誤。Elisabeth BikBik以其在科學出版物中檢測照片操縱的工作而聞名,她表示,希望Daniel Acuna首先向她諮詢匹配結果。她進一步在PubPeer寫道,該軟體「仍然需要人工監督,以確保它不會錯誤地將適當的重複影像標記為不適當」。
對於 Elisabeth BikBik 的觀點,Daniel Acuna 表示同意:軟體標記的內容始終需要人來審核,並且尚無法根據上下文了解所獲取的內容是否有問題。
更有一些研究人員指出,Daniel Acuna的軟體完全弄錯了,而且標記了相似但不匹配的影像。例如,北卡羅來納州達勒姆市杜克大學的Priyamvada Acharya要求Daniel Acuna刪除他的一篇論文的匹配結果,該論文包含同一分子的相似視角圖。
隨後,Daniel Acuna從他的網站上刪除了大約三分之一的檢查結果,並將該網站的列表設置為私人訪問。如此,只有從他那裡獲得訪問密鑰的作者才能看到他的檢查結果。
總體而言,這項研究論文的自動篩選技術遠非完美,而且「仍然需要專家來解釋和理解」。此外,德國海德堡的影像分析師 Jana Christopher 也指出了該技術的另一局限性:自動影像檢查演算法仍然過於專注於查找重複項,並且還不能應對所有影像處理手段。
除了技術上的不完美性,Daniel Acuna 本人還指出了影響軟體的準確性的一個外在因素:PDF文件格式會破壞自動提取影像的能力。例如,今年5月,Elisabeth Bik在推特上敘述了關於Nature的一篇COVID-19 論文的影像複製問題,該影像也出現在2月份的預印本中,但Daniel Acuna的軟體由於論文是PDF格式而沒有檢查到。
目前為止,關於新冠病毒的研究產生了無數的論文,許多研究人員擔心出現低品質的研究和錯誤,甚至欺詐。有科學家發出警告:「品質低劣的研究將泛濫成災」。
接下來,Daniel Acuna 打算繼續進行論文重複影像的自動檢查,而之後首先要做的事情,就是將查重結果告知作者,只有在他們不回應的情況下才公開結果。
對於學術界低質論文泛濫成災的現象,Daniel Acuna 也發出了告誡:「我希望那些正在動歪腦筋的論文作者們意識到,有人正在對論文影像進行查重。」
參考內容://www.nature.com/articles/d41586-020-02161-3