100位中國學者合作的研究綜述被曝抄襲,智源發表聲明:承認錯誤,轉交第三方專家調查

  • 2022 年 4 月 15 日
  • AI

編者按:

本文為昨日AI科技評論的《100位中國學者合作的研究綜述被曝抄襲,智源發表聲明:承認錯誤,轉交第三方專家調查》一文的修改編輯重發。文章昨日發佈後在評論區引發了較激烈的討論,與此同時, AI科技評論仍在關注國內外對這一事件的評論。同時也有不少讀者給AI科技評論留言,就該事件的性質、嚴重程度進行了討論。

AI科技評論一貫的態度是:作為圈內的一份子,我們不應抱着「吃瓜」的看客態度將此事潦草帶過,也不應一杆子打翻一船人。正如我們了解到的智源的立場:在正式調查得出結論之前,就學術不端的涉及面、嚴重程度等進行蓋棺定論是不恰當的;我們此文更多的是出於學術監督的立場,與當事方進行溝通、向關心此事的讀者傳達我們了解的信息,幫助大家形成自己的判斷。
若批評不自由,則讚美無意義。對於給我們留言「遞刀子?」的讀者,慢走不送。

同時,我們懇請各位讀者討論的角度更多集中在如何藉此機會推動學術風氣的改善上。即便是外網,除了個別網友表態比較激烈,我們仍注意到了不少較為客觀的討論。如Nicholas Carlini 的更新,@tdietterich 關於「未觸發Arxiv重複檢測器」的判斷,@DanielFRoddy的「I look at it as flattery now.」的表態,等等。毫無疑問,該事件對中國學者產生了不小的影響,既然智源已經啟動第三方調查,我們不妨「靜待佳音」;而做好學術環境的重建,才是對於整個學術界最重要的事情。

PS:此前推送讀者的精選回復,我們也已截圖保留貼於文末。
作者 | 陳彩嫻

編輯 | 岑峰

嗯哼…首先咳嗽一聲,以表事態嚴峻。

昨天,國內人工智能學術圈曝出了一起重大的論文抄襲事故,登上知乎熱搜:

谷歌大腦研究員於4月8日在個人博客發文,指出北京智源人工智能研究院、清華大學等等單位新近合作發表的綜述論文「A Roadmap for Big Model」(大模型路線圖)抄襲了他們的論文「Deduplicating Training Data Makes Languages Models Better」與其他論文,共計十餘處。

消息一出,立刻在國內外的社交媒體上引起了眾多AI研究者的關注與討論。

由於該論文篇幅長達200頁,涉及的學者眾多(一百位),因此,自抄襲消息從北京時間4月13日早晨登上知乎熱搜開始,AI科技評論編輯組就一直在儘可能與多位涉事學者核實情況,以求儘可能做到真實、客觀、嚴謹的討論。

毫無疑問,該論文在arXiv上發表,作為單單由就職於中國研究機構與高校的學者所合作撰寫的研究綜述,論文被曝抄襲,必然會使中國的AI學術圈蒙羞。

多位學者向AI科技評論表示,這一抄襲事件對華人學者的名聲造成了極大的負面影響。

這再次警示我們的學者:學術誠信原則神聖不可侵犯,應將論文寫作規範時時銘記在心,不要突破科研的基本底線。

與此同時,我們也需要做到理性分析。論文抄襲被國際友人討論與抨擊,不是藤斷瓜落,而是雪山崩塌。作為圈內的一份子,我們不應抱着「吃瓜」的看客態度將此事潦草帶過,也不應一杆子打翻一船人。廉潔建設,人人有責。

追索真理,本就是科研的態度。


1

論文詳情

首先讓我們來回顧一下事件的經過:

今年3月底,一篇由19家機構、100位中國學者聯合署名發表在 arXiv 上的200頁論文引起了國內外人工智能領域的廣泛關注。

這篇論文是一篇研究綜述,題為「A Roadmap for Big Model」(大模型路線圖),主要圍繞近年來人工智能領域興起的大規模語言/視覺模型(如GPT-3)研究進行了深入歸納與討論。

此外,該論文在首頁即表明:大模型的路線圖由清華大學的唐傑教授設計,分為十八節,包含16篇章節,16篇章節中的每一節由一位(部分為兩位)通訊作者組織。

論文地址://arxiv.org/pdf/2203.14101.pdf

從文章的出發點(促進大規模人工智能模型的研究)、合作作者數量與署名機構的權威性來看,這篇研究綜述對AI研究者均有極大的閱讀吸引力。Google Brain的研究員Nicholas Carlini就是其中一員。

但隨即,4月8日,Nicholas在他的個人博文發文,稱「A Roadmap for Big Model」一文抄襲了他參與的論文「Deduplicating Training Data Makes Language Models Better」,而且,他還指出,這篇論文至少還抄襲了十餘篇其他論文。

博文地址://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

在他的博文中,他用綠色高亮部分對比了大模型路線圖一文(左)與其他被抄襲論文(右)的重合部分。其中,我們可以看到,Nicholas所標亮的內容基本是幾句話構成的一大段「複製-粘貼」:

需要注意的是,AI科技評論對比了「A Roadmap for Big Model」與「Deduplicating Training Data Makes Language Models Better」等多篇文章,並藉助論文查重器,發現 Nocholas 指出的10處重複來自於多篇不同文章,而知乎的問題讓人感覺Nicholas在自己的一篇文章里找出了10處重複。

Nicholas的文章發表後,立即在Twitter上引起了不少注意。因此,在4月12日(北京時間4月13日),他又在個人博客中作了更新說明:

沒想到這篇文章發出後受到了這麼多關注……我懇請:不要將這件事變成一場蓋帽子的政治迫害。我見過一些人因為對類似事情發聲而導致相關人員立即被解僱或被禁止使用arXiv等等。我不會隨便斷定這篇論文(大模型路線圖)是複製自多個來源。在不了解實際的情況下,我不想做判斷。也許一些資歷較淺的作者本意是好的,認為有了引文就可以直接複製文本了。這當中也許有來自上層的壓力,讓一些學生以為要按時交稿,他們的唯一選擇是偷工減料;而對於資深作者來說,他們可能閱讀了文本、認為它讀起來很合理,並只是對文本進行了微調,而不知道文本的來源。關鍵是「我們不知道」。這篇論文的合作者有100位,什麼情況都是有可能的。


2

核查與聲明

緊跟推特討論,知乎網友也開始關注到此事。4月13日,題為「如何看待智源、清華等單位論文 A Roadmap for Big Model 中大量段落被指涉嫌抄襲?」的話題衝上熱搜,立即引來了超過500萬的關注度。4月13日一早,當事方智源即在知乎回復,表示注意到了對該論文的質疑,正在對相關情況進行核實,並儘快通報有關進展。

針對該事件,AI科技評論也向該論文涉嫌抄襲章節的多位作者進行了核查。

由於論文的合作作者多達100位,首先我們需要理智看待的一點是:不能將100位作者相提並論,更不能將一部分作者的抄襲擴大為全部作者的抄襲。

從論文的作者名單可以看到,中國人工智能領域的多位知名權威學者均在其列:

參與該論文的19家機構中,中國高校有6所,中國高校/政府研究機構有4所,企業有5家(騰訊、華為、京東、位元組跳動、微軟)。其中,分別排名第一與第二的北京人工智能研究院與清華大學最突出:

AI科技評論也注意到,Nicholas指出的疑似抄襲部分重複的嚴重程度不同,大致可分為三類:

  • 較為明顯的大段複製,較明顯的如第2篇文章3.1節(報告P.13-14,對應於Nicolas的第一處質疑);

圖註:報告P13-14的大段Copy

  • 未給出論文索引的複製,如第8篇文章3.1節(報告P.69,對應於Nicolas的第三處質疑)複製自《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、第14篇文章第2節(報告P.107,對應Nicolas第七處質疑)複製自《Multilingual Denoising Pre-training for Neural Machine Translation》,但在此前版本中的引用文章列表內並未包含這兩篇論文。

圖註:報告P69和P107,複製內容前的引用均不是包含複製文字的論文,也沒有給出論文的相關信息,容易讓人誤解為作者的原創。

  • 作者缺乏經驗導致的複製,如第2篇文章4.3節(報告P.16,對應於Nicolas的第二處質疑)以及第10篇文章第二節(報告P.80,對應於Nicolas的第四處質疑),均為在複製內容前有類似「在XXX作者的XXX文章中提出…」的字樣,隨後直接複製原作者論文中的總結部分,這也與Nicolas文章更新中提到的「也許一些資歷較淺的作者本意是好的,認為有了引文就可以直接複製文本了」相吻合。

圖註:報告P16和P80,複製內容前給出了論文的相關信息,但沒有用自己的話總結而是直接Copy。

在AI科技評論與作者的溝通中,多位學者也與AI科技評論表示,被指出涉嫌抄襲的部分不是自己提供的內容。所以這件事情出來後,有的老師表示「我自己都是懵的」;而對於AI科技評論針對Nicolas文章所提出的發現,我們所聯繫的老師也均做出了積極的補救措施。

4月13日晚,作為第一責任單位的北京智源人工智能研究院(BAAI)智源在官方網站、知乎、Twitter等國內外平台上公布了內部調查的初步結果。

官網聲明地址://www.baai.ac.cn/portal/article/index/cid/4/id/404.html

智源對這次論文抄襲事故作了調查,公布的初步內部調查顯示有5個章節「應屬抄襲」:

1. 該報告是一篇大模型領域的綜述,希望儘可能涵蓋國內外該領域的所有重要文獻,由智源研究院牽頭,負責框架設計和稿件匯總,並邀請國內外100位科研人員分別撰寫了16篇獨立的專題文章,每篇文章分別邀請了一組作者撰寫並單獨署名,共200頁。報告發佈後,根據反饋持續進行修改完善,到4月2日在arXiv網站上已經更新到第三版。

2. 4月13日,我們獲悉谷歌研究員Nicholas Carlini在個人博客上指出該報告抄襲了他們論文的數個段落,同時還有其他段落和語句抄襲其他論文。我們對此進行了逐項核查,經查重確認第2篇文章的第3.1節179個詞,第8篇文章的第3.1節74個詞、第12篇文章的第2.3節55個詞、第14篇文章的第2節159個詞、第16篇文章的第1節146個詞與其他論文重複,應屬抄襲。我們決定立即從報告中刪除相應內容,報告修訂版今天將提交arXiv進行更新。目前已通知所有文章的作者對所有內容進行全面審查,後續經嚴格審核後再發佈新版本。

智源表示,「已通知所有文章的作者對所有內容進行全面審查,後續經嚴格審核後再發佈新版本」。此外,智源還稱:他們將邀請第三方專家對報告進行獨立審查,根據正式調查結果對相關責任人作出問責處理。

需要特別一提的是,《道歉信》中所列舉的抄襲並未完全對應Nicolas文章中的10處質疑(如對第10篇文章就並未提到)。在AI科技評論與智源的事後溝通中得知,道歉信中僅為智源內部參照IEEE抄襲的五級標準進行自查的部分初步結論列舉,正式的認定以第三方正式調查結果為準,「不排除還有其他部分被認定為抄襲」。



3

各方反應及後續需要關注的問題

《道歉信》發出之後,在Twitter、微博等平台上也有不同觀點。

一種聲音是來自國外網友的質疑。如在Twitter上,網友@allonsy 表示對聲明的不認同:「看起來你們並沒有對抄襲進行懲罰的打算。你們給世界留下了不好的印象,我以與你們為伍感到羞恥。」

對此,智源副院長劉江回復:「請等待後續消息。」

另一種聲音是以馬毅為代表的華人學者的支持:

在AI科技評論看來,智源勇於承擔的精神十分可嘉。

但仍要指出的是:儘管智源發表了致歉聲明,但由於這只是一個初步的內部調查,對於造成這次事故的原因幾乎沒有提及,暫時沒有人被追責,這或許也是國外網友認為道歉聲明「避重就輕」的原因。

而根據AI科技評論事後與智源的溝通,智源表示會啟動第三方專家調查,以消除這一事件的不利影響。第三方專家的邀請將遵循國際通用的迴避原則(如師生、合作者等),並且也考慮邀請部分國外專家如Nicolas參與調查。但在正式調查結果公布之前,對抄襲發生的原因、規模、涉及的作者進行猜測是不合適的,這也是劉江回復「請等待後續回復」的原因。

而根據智源的總結,他們在報告編寫過程中犯了一個錯誤是沒有對所有作者提交的信息按照論文的標準進行查重。在報告的編寫過程中更多的是參照雜誌大專題的方式,將報告分解為多篇文章進行匯總,在互聯網上發佈並根據反饋進行修改和快速迭代。而由於協作單位眾多,各單位的執行標準不一以及時間問題都是最終導致這一事件的客觀因素。

智源表示,他們要堅定地承擔起組織和審查嚴謹度責任,絕不推脫。

類似地,也有老師向AI科技評論稱,國內學術界很多人有這樣一種觀點,認為Arxiv論文「沒有經過同行評議,不算正式的論文。」

但該老師也承認,這件事給國內學術界敲了警鐘,因為「公開就要負責,一旦做Co-Authors就得給整篇文章把關」。

正如 Nicholas 指出,100位作者,任何事情都可能發生。

智源於2018年成立,是政府牽頭支持的科研機構,自成立以來,逐漸成為國內人工智能研究的領頭羊,推出「悟道」大模型等成果,值得讚許。這次的「A Roadmap for Big Model」對標斯坦福的「Foundation Model」,也體現出緊跟前沿的執行力。

圖註:斯坦福「Foundation Model」的論文作者數量同樣十分龐大

但在這種多人參與大報告的具體執行上,國內學者還需要在細節上下更多功夫。如一位學生在知乎該問題的回復,如何以此為契機加強國內學術圈優良學風的建設,對包括論文、文章、代碼等各種抄襲嚴格說No,才是值得當事人思考的地方。

畢竟只有平時的小事做好了,在做大事的時候才不會拉胯。

圖註:知乎相關問題下,一位學生關於學風的回答

對於這一事件的後續發展,AI科技評論一方面會持續關注。對於該事件的前因後果,以及如何規避,相信讀者仍有着不少疑問。

在與智源的溝通中,我們也列出了一些我們關注的問題。其中部分問題智源給出了回答,但有的問題仍需要有待第三方調查結束後才能得到結論。具體問題如下:

Q:這篇研究綜述涉及到19家機構,分為18分部分綜合而成,智源如何組織?

A:智源在組織這篇研究綜述的時候是將其當做一個報告而非正式論文,因此採取的也是類似「大專題」的形式分解成多篇文章,每篇文章也有專門的通訊作者署名負責。在平台上選擇的也是Arxiv這種互聯網平台,以便於得到反饋後得以修改更新。

Q:智源在聲明中稱會轉交第三方專家獨立處理,第三方專家由哪些人組成?迴避的原則是?

A:從消除不利影響的角度上來說,我們當然希望越快調查完越好,但在比較短的時間例如一個星期完成也是不現實的。智源目前有一些第三方專家的意向人選,但還沒有最終定下名單。我們會按照現成的原則進行迴避,如師生關係、合作者關係都是需要迴避的。

Q:智源如何判斷是否構成抄襲?關於10處問題的的嚴重程度如何認定?是否意味着接受有的知乎網友的說法,提到了原論文並摘抄就不算?

A:智源的初步報告中列舉的只是我們根據IEEE抄襲的五個等級進行認定、目前可以確認的內容,這並不是最後結論。我們也會藉助專業工具,在後續的第三方調查中也有可能會有新的內容被認定為抄襲。

Q:在後續的科研工作開展中,你們會如何規避類似此次的抄襲事故?

A:我們犯的一個錯誤是沒有按論文的標準在對這篇報告進行查重。如果我們做了查重,我們就能發現上述問題,並反饋給作者進行更改。智源對學術不端持零容忍態度,以後會通過開展作者自查、學風教育等方式避免類似事故發生。也歡迎學術界、媒體進行監督。

Q:事件調查完成後,智源是否會發佈明白的事件經過調查公告?

A: 會發佈相關公告。

Q:關於論文「引用不當」與「抄襲」,智源的理解是怎樣的?是否會對科研工作者制定嚴格的寫作規範指南?

A:我們一定會制定嚴格的寫作規範指南。而且這個指南和國際標準不會有太大出入。

而下列問題的回答本身屬於調查的一部分,仍期望智源進行進一步調查:

  • 該論文的每一位署名作者,是否在論文發表前對全文內容具有知情權、並在發表時徵得每位作者的同意?

  • 是否存在如一個被刪除的回答所說,只給他一個星期的寫作時間,而且並沒有最後通閱全文?

  • 為什麼是100位作者,是否有湊整數好看之嫌?為此,是否存在如知乎回答所說導師讓學生幹活而只掛自己名(可能是限於名額),然後學生只保證有東西不保證質量的情況?

十年樹木、百年樹人。人才永遠是科研進步的根基,若因學術不端事件打擊青年人才的科研積極性,對學術失去信心,那中國的AI未來發展便真的是岌岌可危了。

時日維艱,也希望學者銘記:你們的科研資金來自於納稅人。做研究,是要有責任心的。

最後,相信學者們以後在論文合作上都會留一個心眼了。但願這次事件沒有阻礙學術的交流。

參考鏈接:

//www.zhihu.com/question/527620020

//nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

//arxiv.org/pdf/2203.14101.pdf

//www.baai.ac.cn/portal/article/index/cid/4/id/404.html

雷峰網雷峰網