去年發的論文已經配不上今天的你了!NIPS準備辦場論文反思會

  • 2019 年 10 月 4 日
  • 筆記

大數據文摘出品

編譯:武帥、寧靜

研究人員的聲望常與其論文相掛鈎,如果你是一位教授,你發表的論文數量和質量決定了你是否會獲得終身教職。如果你是一名學生,論文決定了你能否以及何時畢業,也會影響到你未來的工作或者學術前景。

一篇論文應該是一份詳細的手稿,一份用於理解和複製研究想法的指南。但是論文所講述的故事並不總是完整的:研究者們為了取悅審稿人,通常會省略一些細節或者模糊化他們的方法。隨着研究者們實驗的深入以及和同行的交流,他們對所發表的論文的理解也會加深,而這些發展很少公開發表(除非有足夠的材料來撰寫另一篇文章)。

這並不是說研究者們都不誠實,只不過是不值得花費寶貴的時間來撰寫這些發展罷了,機器學習被視為是一個「公開」的領域,它正在發生着改變。Rescience發佈以往論文的副本,而Distill則專門發佈有關這些論文的有趣見解,研究者們也開始因為撰寫高質量的博客文章以及編寫能夠復刻他們研究結果的簡潔易讀的代碼而被人們所認可。

如圖所示,藉助交互式可視化技術,Distill正專註於一種新型的獎學金:提煉現有的研究思路使其更加容易理解

相比於公開發表,研究者更多地選擇與朋友和同事談論過去的工作,也更願意承認其不足之處。但是許多有抱負的研究者沒有辦法參加相關會議,自然也沒有機會和那些建立在他們研究基礎之上的研究人員進行這種開誠布公的對話。

一位研究人員說,「每跑一次的結果都充滿了隨機性,你可能真的非常幸運,跑出一個非常好的數字,研究報告中通常寫的就是這個」。個體研究人員的評價標準是發表論文的數量和質量,而這勢必導致論文刻意隱藏一些較差的結果;整體科學研究的評價標準是論文的真實水平,而這就要求作者開誠布公,如何破解這一矛盾,讓之前的論文配得上現在你的認知呢?

在即將召開的NeurIPS2019上,專門發佈了一個叫做ML Retrospectives(機器學習回顧展)的論壇,希望讓研究者們在這裡。回顧和反思自己過去的研究。

ML Retrospectives是一次嘗試,是一個研究者們用來對自己以前的論文進行反思和評論的網站?

鏈接:

https://ml-retrospectives.github.io

你可以在這裡對公開發表一些高質量論文進行回顧,它的目標之一就是鼓勵研究者更加開誠布公地探討他們之前的工作,並且實時分享他們新的見解。

鏈接:

https://ml-retrospectives.github.io/neurips2019/

「論文債務」是ML Retrospectives要解決的問題

ML Retrospectives工作坊源於一個稱之為「論文債務」的想法。「論文債務」指的是論文作者和讀者之間可用知識的差異:那些論文作者本可以在文章中闡述卻並未書寫的實驗,直覺以及局限性。「論文債務」是「研究債務」的一種具體形式,而「研究債務」這個概念最早由Chris Olah和Shan Carter在Distill雜誌發表,指的是一個外行人和一個專家之間的知識差異。

「論文債務」以各種方式不斷累積,有時,研究人員為了文章的簡潔性而被迫省略了一些直覺或者實驗。其他時候會做出微妙的混淆或者誤導。Lipton和Steinhardt在Troubling Trends in Machine Learning Scholarship 一文中這樣描述該現象:一些論文通常很難區分猜測和解釋的部分,刻意隱藏結果的經驗來源,以及添加不必要的方程來讓方法看起來更複雜。

論文寫作中更加明顯的遺漏也是很常見的,例如,如果作者在其他的數據集上進行了額外的實驗而沒有成功,那麼作者在論文中通常會省略掉它,儘管這對其他研究人員十分有用。類似地,作者很可能會為他們基線模型選擇較差的超參數,這並不容易看出來,如果作者沒有完整地描述超參數選擇過程的話。

一位研究人員說,「每跑一次的結果都充滿了隨機性,你可能真的非常幸運,跑出一個非常好的數字,研究報告中通常寫的就是這個。」這也是頂會論文中公開源碼的比率比較低的原因之一。

在2018年的Science中也有報道,如下所示?

鏈接:

https://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies

由於研究者撰寫論文的部分目的是為了取悅未來的審稿人,而這無疑鼓勵着「論文債務」的產生。研究人員的評價標準是其在頂級會議和期刊上發表的論文數量。淡化缺陷以及省略負面結果提高了審稿人眼中的論文質量,從而論文也更容易通過同行評審。

「論文債務」的另一大推動因素是時間。由於論文作者進行了額外的實驗並與同行進行了交流,他們對自己的工作有了一個更好的理解。有時,如果變化足夠的話,作者會在arXiv上更新他們的文章,但是更多時候,這些理解只會停留在作者的腦海里。畢竟,要把這些發現巧妙地融入到之前的論文並不是一件易事,也並不清楚會有多少人注意到你添加的內容,如果他們並沒有閱讀你之前的論文的話。

「論文債務」是研究人員勞動力的最大浪費。如今,閱讀論文時還要試圖理解哪些主張在技術上是合理的。在閱讀機器學習的論文時這種現象普遍存在:「好吧,他們試圖隱藏什麼?你需要用什麼秘技才能真正讓它發揮作用?」對於許多研究人員而言,這種懷疑主義「來之不易」,因為他們需要將工作建立在那些看起來很酷卻並不怎麼奏效的想法上。如果我們沒有三思而後行,這種情況就經常發生。我們已經習慣了如此巨額的「論文債務」,以致於我們所有的懷疑看起來都是正常的。

想像一下,如果對於每篇發表的論文,作者都儘可能地詳盡實誠地描述了所有有效和無效之處,那將是多麼難以置信?

ML Retrospective的目標希望其朝着這個方向邁出的具體一步,那麼,ML Retorspectives這個想法是如何產生的呢?讓我們在下文看看其網站創始人之一的心路歷程。

創始人有話說,聽聽ML Retorspectives的起源

想法源於在那麼一天,我意識到自己以前的論文已經不知不覺間增加了許多「論文債務」,2017年,我與別人合著了一篇有關訓練神經網絡的論文(我們稱之為「ADEM」),用於自動評估對話響應的質量。論文被一個頂級NLP會議—ACL接收了,並獲得了一項傑出論文獎,在很多方面,我為這篇論文感到自豪,我至今仍覺得對話評估是一個研究不足的問題,而這篇論文是解決該問題的一次有趣的嘗試。

但是我仍有一絲內疚,在論文發表後的一年裡,我和其他嘗試用ADEM進行對話評估的研究人員進行過幾次交流,發現在他們的數據集上效果並不是很好。之後我收到了一名學生的郵件,他已經對他手工創建的數據進行了幾次健全性檢查,他發現ADEM並沒有通過一些健全性檢查,ADEM始終認為較短的回答更好一點,即使這些較短的回答並沒有什麼意義。

摘錄自一名用ADEM進行數據健全性檢查的學生的谷歌表格

儘管這些結果對我來說是全新的,但我之前就隱隱覺得ADEM可能無法很好地推廣到其他數據集,在首次訓練ADEM之後,我注意到它更傾向於較短的回答,我們發現這是由於我們收集的數據集MTurk存在偏差,因此我們嘗試通過過採樣或者欠採樣的方法來改進它,我們在論文中提到了偏差的存在以及嘗試的解決方案。我沒有提及的是我也在一個不同項目的數據集上嘗試了ADEM,發現效果並不是很好,我為論文的披露不足負全責,當時我認為這是由於數據收集程序的差異而導致的,因此並沒有重視。畢竟,真正重要的是ADEM在測試集上得以推廣,不是嗎?

通過這些交流,我發現我對這項研究有了全新的看法,「哦,是的,這個想法很酷,但我實際上不會用它來評估對話系統。」我很樂意私下裡討論ADEM的局限性,但是當更新arXiv上的論文時,我猶豫了,我並不想花時間去進行嚴格的附加測試,包括那些非正式的談話或者那名不認識的學生髮給我的谷歌表格上看起來毫不合理的臨時結果,所以我等待着,試着控制自己的內疚和判斷,直到有什麼可以改變我想法的東西出現。

最終改變我觀點的是這樣一種認知:我不必為以前的論文中的這些矛盾感到羞恥。當我寫下這些論文時,我當時的水平和現在並不相同。這不會讓我成為一個壞蛋,它只是意味着隨着時間的推移,我的水平不斷提高,就像其他人一樣。

如釋重負之後,我能夠更加容易地反思我之前的論文。我想為這些累積的論文債務做些什麼呢?我最早想的是寫一篇有關它的個人博客,但在與我的主管Joelle和蒙特利爾學習算法研究所(Montreal Institute of Learning Algorithms,Mila)以及Facebook蒙特利爾AI實驗室(Facebook AI Montreal)的其他人討論後,多虧了一系列機構的研究團隊,現在它變成了現實。

ML Retrospectives問世了!

我們提出的方案就是ML Retrospectives。

ML Retrospectives是一個舉辦回顧的平台:研究人員在這裡誠實地寫下他們對自己以前的論文的看法。因為回顧是有關自己以往論文的真實看法,所以它是一個減少論文債務的簡單方法。我們希望回顧能夠不像論文那樣正式,因此我們讓它們的格式看起來更像博客,並且把整個網站託管到了Github上,要提交回顧,你只需要向我們的倉庫提交請求即可。

回顧是以Markdown語法書寫的,因此它們能夠很自然地顯示在ML Retrospectives網站上。

為什麼寫回顧?發佈代碼意味着你關注結果的可複製性,與之相同,撰寫回顧意味着你誠實地展現你的工作。回顧可以很簡短,只需花上30分鐘寫下對你自己的論文的看法即可,但這對讀者卻有着很大的幫助。回顧並不一定是消極的,你也可以寫下自論文發表以來你在這項工作中新的發現,結合這一領域的進展來給你的論文注入新的活力,9月15日之前提交的回顧有機會在NeurIPS 2019 回顧研討會上公開發表。

我們決定只向論文的原作者開放回顧。雖然一些對其他人的論文的評判也很有價值,但我們目前希望專註於讓作者自我評判常規化。對於第一次迭代,提交給ML Retrospectives的回顧不會進行正式的同行評審,但我們目前也在考慮為那些高質量的回顧出一份期刊。

ML Retrospectives這項試驗提出了這樣一個問題:當我們建立了一個鼓勵研究人員直面他們過去工作中的缺陷的平台時會發生什麼?雖然我們很期待通過NeurIPS研討會進行自我反思(一種重要的獎學金形式),但從長遠來看,我們更希望建立分享研究的文化規範,這並不是說羞辱那些在過去寫的論文中犯錯的人,而是歌頌那些能夠大膽說出不足並公開分享的研究者。

科研路漫漫

做科學很重要,通過理解世界的運作方式,我們能夠創造那些讓生活更美好的事物。但是,研究科學過程本身也是一件重要的事。如果個體研究人員的激勵措施與提高整體科學研究水平的激勵措施並不一致時,我們就會進入這樣一種窘境:即大多數論文的研究結果都無法複製。ML Retrospectives只是對科學過程本身的一次小迭代,我們希望看到更多的研究人員嘗試着用他們認為有益的方法來助力科學研究。

ML Retrospectives的最終目的是讓研究更加人性化,這意味着讓研究人員感到寫論文就像和老朋友談話一樣,這意味着讓研究公開透明,這意味着建立一個更加開放包容的機器學習社區。

畢竟,在這場科學之旅中,我們一路同行。

相關報道:

https://thegradient.pub/introducing-retrospectives/?nsukey=0SrBDySpLAd%2BLHc123SwkKTAYwatjGl4P7XiCNURhBBguYdS8wyCudnEWYvGym3ZZWBX5vrlWKBcSrZdRmMcuNtH3c%2BJL23fWT5CxGZhor9RmbAjLu1EY7vHIITSKZTbnGFwfMOtJ2LhG7Ld%2FWQdjT4GPRaVnDR%2FyLIz23TrcKpRB1TNFRNrPYeE2GJaHbCvWh0PBiJzpRkD14U0L4GKSQ%3D%3D