SIGIR主席公開信回應抄襲事件:正調查但無法撤稿,已聯繫Reddit鎖帖
- 2019 年 11 月 26 日
- 筆記

【新智元導讀】論文抄襲乃學術大忌,前段時間傳聞有一篇SIGIR 2019的論文抄襲了一篇RecSys 2018的論文,在Reddit上炸開了鍋,連SIGIR主席Ben Carterette也被驚動了。他代表SIGIR發了一封公開信回應該事件,表示正在調查,對公開匿名指控不予回應,並號召大家不要參與Reddit上的公開討論。你怎麼看,來新智元 AI 朋友圈說說你的觀點~
論文抄襲一直是學術屆的一個大忌,前段時間傳聞有一篇SIGIR 2019的論文抄襲了一篇RecSys 2018的論文,被吵得沸沸揚揚。最近,SIGIR主席Ben Carterette代表SIGIR發了一封公開信回應該事件。
我們先來回顧一下事情的來龍去脈。
Reddit網友扒出SIGIR 2019論文抄襲:模型幾乎完全是複製
這次的論文抄襲開始是網友joyyeki在Reddit上發起的討論,他表示:SIGIR 2019論文中提出的模型幾乎是RecSys 2018論文中模型的複製品,並給出5個理由:
- 兩篇論文都使用了矩陣分解框架上的對抗性序列到序列學習模型。
- 對於生成器和判別器部分,兩篇論文都使用GRU作為生成器,使用CNN作為鑒別器。
- 優化方法相同,即兩部分交替優化。
- 評估相同,即評估MSE的推薦性能和評估判別器的準確性,以表明生成器已經學會生成相關的評論。
- 這兩篇論文所用的符號和公式看起來極其相似。
Reddit討論地址:
[Discussion] A Questionable SIGIR 2019 Paper from MachineLearning
此外,這位網友還舉了3個例子,來證明這兩篇論文措辭很相似,另一位Reddit網友索性在論文里進行了標註:

彩色標示出的是兩篇論文不一樣的部分,其餘部分則相同(左為SIGIR 2019論文,右為RecSys 2018論文)
此次事件涉及的抄襲論文的兩位作者,分別來自荷蘭馬斯特里赫特大學的Dimitrios Rafailidis和瑞士提契諾大學(USI)的Fabio Crestani,他們都是該領域的教授/助理教授。
原作者回應:論文都是基於對抗訓練,所以符號/公式看起來很相似
而涉及的作者也在帖子下方對網友joyyeki指控抄襲的5個理由進行了回應:
1. 兩篇論文都使用了矩陣分解框架上的對抗性序列到序列學習模型。
回應:這兩篇論文都對一篇 WWW『18 論文《Co-Evolutionary Recommendation Model: Mutual Learning between Ratings and Reviews》進行了拓展(這篇的作者也是 RecSys 2018 論文的作者)。SIGIR 2019 論文的作者在研究中引用了 WWW『18 的論文(但很奇怪,那篇 RecSys 18 論文並沒有引用他們自己之前的這項工作)。
2. 對於生成器和判別器部分,兩篇論文都使用GRU作為生成器,使用CNN作為鑒別器。
回應:SIGIR和RecSys的論文都基於對抗訓練,WWW'18的論文也是如此。在句子結構中,GRU / CNN是相當普遍的序列到序列學習策略。實際上,其他許多論文也都將 GRU 和 CNN 用於文本表示/文檔分類的序列到序列學習。因此,有意義的是,SIGIR和RecSys論文在生成器和鑒別器部分都遵循類似的策略。
3. 優化方法相同,即兩部分交替優化。
回應:這只是部分正確。確實,在我們的SIGIR論文中,我們採用了與RecSys論文相同的交替優化方法。但是請注意,這種方法已被廣泛使用。實際上,我們在之前的ECML / PKDD 2016的論文中也使用了它。另一方面,為了建模用戶偏好,我們使用了非負矩陣分解,而不是RecSys論文中使用的概率矩陣分解。這是一個很大的差異。
4. 評估相同,即評估MSE的推薦性能和評估判別器的準確性,以表明生成器已經學會生成相關的評論。
回應:這是不準確的;評估確實有所不同。儘管MSE是用於評級預測的廣泛使用的度量,但在我們的論文中,我們評估了我們的方法在四個與RecSys論文不同的數據集上的性能。請注意,我們在實驗部分引用了WWW'18論文,以明確說明我們遵循了相同的評估方案(其他基於評論的推薦系統的研究所使用)。除了在 RecSys2018 論文以及其他基於評論的推薦系統的論文中廣泛使用的 PMF 和 HFT 兩種基準線策略之外,我們還針對DeepCoNN,TNET和WWW'18論文提出的TARMF方法評估了我們的方法。在我們的實驗中,我們還評估了RecSys論文中未報告的潛在因素數量的影響。這些都是有意義的差異。
5. 這兩篇論文所用的符號和公式看起來極其相似。
回應:正如我們之前所說,SIGIR和RecSys的論文都是基於對抗訓練的,就像WWW'18的論文一樣,所以符號/公式看起來很相似。但是,除了使用不同的矩陣分解技術外,對抗訓練過程也存在差異……
Reddit網友不買賬:您的回答漏洞百出,這裡的人不是傻瓜
然而,對於這些解釋,原帖樓主並不買賬:感謝您為證明自己清白所做的努力,但不幸的是,您的回答漏洞百出。
首先,您在回答中兩次提到「 SIGIR和RecSys的論文都是基於對抗訓練的,就像WWW'18的論文一樣 」。我剛剛閱讀了WWW'18的論文,卻找不到任何地方表明它是基於對抗訓練的。請不要以虛假的陳述欺騙讀者。
其次,您聲稱「 在本文中,我們遵循本文中引用為[2]的RecGAN 2018策略,並在引用中引用了[18]引用了IRGAN 2017策略,以減少訓練期間的差異 」。請明確說明您在論文中用來減少訓練方差的策略並非 RecSys『18 論文中的策略。您聲稱這是「 實質性差異 」,但最終我只看到參考文獻有所不同,其基本理論幾乎相同。請對此進行詳細說明。
第三,您聲稱「 就對用戶偏好進行建模而言,我們使用了非負矩陣分解,而不是RecSys論文中使用的概率矩陣分解 」。我相信概率矩陣分解屬於非負矩陣分解的一類。另外,如果您最終在論文中獲得了等式(5),幾乎可以與RecSys'18論文中的等式(10)相同,那麼您說的「實質差異」的確切含義是什麼。
第四,關於論文措詞。正如 u / eamonnkeogh 所指出的,不僅複製了描述DeepCoNN模型的語句,而且還複製了描述TNet模型的語句。再次,我想你會說這是另一個巧合?此外,您還聲稱,由於論文中的術語在文獻中很常見,因此使兩個以上的段落看起來相似是有意義的。請找到至少一個其他示例,以證明在同行評審的出版物之間可能會發生這種極端相似性。
再次,我要強調,親愛的作者,請確保您不要做出虛假的陳述,甚至不能說服只從事資訊檢索工作三個月的本科生。這裡的人不是傻瓜,他們有自己的判斷力。
原作者附上查重報告,Reddit網友:你的數字比錯了
對於樓主的再次質疑,原作者索性附上了查重報告:

查重報告地址:https://drive.google.com/file/d/18tQXFTJX3FCiAO1hlQqrm9eX0aSC-5mc/view

查重結果
結果顯示,SIGIR19 論文與 RecSys18 論文之間的相似度為 7%,而根據軟體公司的說法,24% 及以下的相似度都是很低的。
即便如此,原帖樓主仍不買賬,他認為:一個經過同行評審的論文有這種程度的重疊是不可接受的,而且作者比錯了數據,實際上應該比similarity index這個數字,也就是23%,這隻比 24% 低一點。
雙方僵持不下,ACM SIGIR 主席、SIGIR 大會指導委員會主席 Ben Carterette也被驚動了,他在帖子下面評論道:「我們已經知曉此事。ACM 有明確的規定和程式來報告和判定可能的剽竊事件。眾所周知,這是一項非常嚴重的指控,最好由具有經驗和專業知識的中立第三方來裁決。如果您要提出正式投訴,可以。」並附上一個 ACM 關於剽竊規定的文件鏈接。
ACM SIGIR主席公開信:正在調查,對公開匿名指控不予回應
自此事件由Reddit曝光以來,熱度一直不減,面對壓力,ACM SIGIR主席Ben Carterette近日發表了一封公開信,對此事進行了回應。
信中首先回顧了ACM為防止抄襲制定了規章和流程,重申了ACM對抄襲的「零容忍」。但信中並未就兩篇涉事論文的內容比較是否構成抄襲做出實質性回應。全文大部分篇幅在敘述ACM的規章和處理流程。
Ben Carterette表示,舉報抄襲需要通過正式的渠道向ACM官方或會議主辦方反映,可以要求匿名,但ACM不會回應在公開網路平台上的抄襲指控。因為對「抄襲舉報處理流程的尊重是十分必要的」。
最後,信中號召大家不要參與Reddit上的公開討論,近期也會在Reddit上專門發帖說明情況,並聯繫Reddit站方對原貼進行鎖定。

Ben Carterette
以下為公開信全文:
尊敬的IR社區:
最近,一位Reddit用戶發布了一個匿名帖子,指控SIGIR 2019上的一篇論文抄襲了RecSys 2018上的論文。我之所以寫這封信,是想解釋一下我們為防止論文抄襲而採取的措施,我們如何與ACM合作解決這個問題,以及我們在目前這種特殊情況下要做些什麼。
SIGIR會議由ACM SIGIR團隊主持,ACM SIGIR隸屬於非營利組織美國電腦協會(ACM)。SIGIR必須遵守ACM的所有政策和章程,因為ACM對SIGIR採取的任何行動或SIGIR會議上發生的任何事情負有法律責任。
我們對抄襲是零容忍的
首先必須澄清一點:SIGIR對抄襲、偽造或虛假陳述零容忍。SIG和ACM均制定了發現和響應類似事件的許多策略和過程,具體請見:
https://www.acm.org/publications/policies/plagiarism-overview
會議對論文均有發布前檢查環節,以發現違規情況,包括使用iThenticate查重工具將提交的內容與已發表的論文進行比較。審查階段涉及的會議甚至超出了ACM的範圍。另一項檢查是同行評議。在論文被接受之後,但最終發表之前,還需要通過另一項關於虛假陳述的檢查,因為作者可以對進行修改,直到最終版本截止時間為止。
一旦論文在發布前檢查階段被標記異常,必須立即將其從論文提交庫中移除。會議組織者對此過程擁有完全的酌情處理權。會議還可以和ACM和其他組織合作,以確保相應作者受到處罰。在過去,作者肯定會面臨違規行為的懲罰。再次重申,我們非常重視這一點。
儘管如此,有時有問題的論文還是會被通過。這是一個IR問題,因此也要面對精度——準確率的權衡選擇問題!當論文通過發布前檢查後,被推薦給同行評審員進行評審,通過評審後進行收稿後檢查,並最終以印刷版形式發表。到了這一步,會議組織者再想採取措施,將受到嚴重限制。實際上,他們唯一可以採取的正式行動是向ACM反映。
他們也確實這樣做了:ACM每年要處理數百項抄襲指控。ACM具有專業知識和經驗,可以公正地處理這些反映。但處理這些問題需要時間。反映發表後論文作者的抄襲必須按照適當程式:ACM相關政策按照嚴重程度將抄襲分為5個級別,每個級別都對應相應的處罰,並賦予了被告上訴權。對這一過程的尊重非常重要。
我們不會介入公開的匿名抄襲指控
抄襲是非常嚴重的指控。它會對作者的職業生涯造成相當大的破壞。不應該輕易提出這種指控,也不應進行公開質疑。遺憾的是,通過在線社交媒體平台上的免費匿名帳戶,從完全無風險的立場進行破壞性的指控非常容易。
我們不會介入公開的匿名指控。我們不能阻止別人提出這些指控,但我們不會對此做出回應。
實際上,ACM政策要求舉報人提供真實姓名,並承諾對舉報人的身份資訊保密,上面給出的鏈接中詳細介紹了這些政策。即使有這些保證,人們也可能有理由不願透露自己的身份。匿名可能是一項重要的保護措施,但匿名舉報確實不具備構成正式觀點的資格。
但是,有一種情況不需要公開舉報:和人私下談論此事。與當地同事和資深人士談談這件事,也許你會發現有人願意提出正式舉報。如果沒人願意這樣做,而且你仍然確定此文確屬抄襲,可以本地人士之外的範圍擴展,但要私下進行。比如聯繫會議的PC主席、聯繫SIG執行委員會成員等。
如果所有其他方法都不管用,請與ACM聯絡並解釋為什麼你希望匿名,ACM還將調查相關的道德問題,這些問題可能導致人們希望保持匿名。但無論如何,提出公開指控的理由都是不充分的。
事件正在調查,論文無法撤稿,已聯繫Reddit鎖帖
我們現在在做什麼?
我們現在並沒閑著。本著上文中的精神,我們做出大部分的答覆是私下進行的。
- 重新進行發布前檢查。經驗證,本文沒有觸發任何發布前檢查中的抄襲警報。
- 我們對論文進行了重新審閱。這是為了確定我們向ACM提交標記的論文部分,ACM不會接受匿名報告。
- 在Reddit上發帖,告知其他人ACM官方政策和程式,並邀請任何希望舉報抄襲的人。
- 要求Reddit版主鎖定原帖。 Reddit論壇需要遵循其社區標準,原貼內容似乎不符合該標準。截止本文發布時,該貼尚未鎖定。
- 親自與ACM出版委員會聯席chairman取得聯繫。該團隊負責處理抄襲指控。他重申,我們唯一可以採取的正式行動就是提出聲明。
- 撰寫一份正式聲明。此事我正在與ACM聯繫,但是我無法談論細節。
下面的事情是我們無法做的:
我們無法斷言抄襲是否真正存在,由誰負責。自從論文發表以來,這件事情我們還無法確定。ACM政策對此非常明確。制定這項政策的原因也很明確:如果我們說的話或基於我們的信念採取的任何行動與ACM的裁決相衝突,ACM就要承擔責任。此外,即使我們想發表聲明,也不能對社區中受人尊敬的成員有所偏向。
此案審理期間,論文無法撤稿。此文已由ACM發布,只有ACM才能將其撤下。
我們不能阻止人們在公共論壇上匿名討論這一抄襲指控。但是,我們強烈建議各位不要參加此類討論,因為參與此類討論會進一步鼓勵匿名的指控。我們無法阻止人們進行匿名公開指控,但我們不會對這些指控做出合理回應。
SIGIR和ACM十分關注抄襲和各種虛假陳述問題。該問題在數十個ACM SIG和更多會議中日益嚴重。要保證做出正確的決定需要時間。退一步,耐心等待永遠不會有壞處。
謝謝大家!
Ben Carterette
ACM SIGIR主席
參考鏈接:
https://medium.com/@carteret.acm/sigir-and-plagiarism-e23bc2b79948
新智元報道
來源:medium
編輯:張佳、大明