算法最熱,arXiv論文接收率高一倍,Rebuttal真能改分,NeurIPS 2019最全報告+視頻+筆記都在這裡了
- 2019 年 12 月 24 日
- 筆記
機器之心整理
機器之心編輯部
公平的審稿、有效的 Rebuttal、先發 arXiv 有優勢,這是 NeurIPS 2019 的審稿大招;269 個官方演講視頻、70 頁研究者參會筆記,這是 NeurIPS 2019 的「在線參會」福利。

盛大的 NeurIPS 2019 剛剛落幕。今年,NeurIPS 官方總結了大會達投稿情況,並介紹了評審委員會在保證投稿質量、完善投稿機制上的種種探索。與此同時,今年 NeurIPS 官方也提供了演講視頻集,很多研究者分享了他們的參會筆記。
在本文中,我們將回顧 NeurIPS 2019 最為主要的五大模塊:論文提交與接收基本情況、限制投稿量的實驗、審稿質量統計、官方出品的演講視頻合集,以及一份乾貨滿滿的 70 頁大會筆記。
因為文章較長,我們可以先概覽這些重要結論:
- 算法、深度學習、應用是最熱的投稿關鍵詞,但水論文也多。
- 發表在 arXiv 上的論文接收率更高,是未發表在 arXiv 上的文章的兩倍。
- 今年大會測試了幾項減少被審論文數量的措施,但減少的論文數都非常有限,還有可能錯過好論文。
- 1/3 的論文被其參考文獻中引用的大牛審到,這些大牛給出的意見置信度也較高。
- 吐槽 NeurIPS 給的評審意見太短?統計數據表明:意見長短符合正態分佈,和其他大會沒有多大差別。
- Rebuttal 真的管用:20% 的論文初始分數得以修改,一半左右的投稿至少改變了一個分數。
- 官方視頻集很重要,你可以找到各種傑出論文解讀、教程和研討會。
- 布朗大學博士生 David Abel 的 70 頁大會筆記乾貨滿滿,結構清晰,非常值得收藏,每一條筆記都記錄了研究背景、主要思想和結論等關鍵內容(鏈接我們已經放在最後了,記得收好)。
論文提交、接收基本情況
在過去的五年中,NeurIPS 的投稿量翻了兩番。今年,經過篩選後,稿件的數量仍然達到了 6,743 篇(在通知時減少到了 6,614 篇),總計有 4,500 多名審稿人撰寫了超過 2 萬條評審意見。最終,今年有 1,428 篇論文被錄用,錄取率為 21.6%。
其中,共有 85 位作者提交了至少 10 篇論文。這些多產提交者的平均錄取率為 24.7%,略高於平均錄取率 21.6%。
投稿熱門關鍵詞:算法、深度學習、應用
今年及去年各領域投稿、錄取比例如下圖所示(按每個領域中提交論文的數量進行排序)。

從投稿數量可以看出,算法、深度學習與應用是今年投稿論文最集中的幾個領域,而概率方法、優化、神經科學則相對冷門。
但在錄取率方面,排名靠後的幾個領域錄取率反而較高。NeurIPS 大會官方對此的解釋是,「在提交論文數最多的主題領域中,提交的低質量論文的比例更大並不足為奇。」也就是說,論文多的地方,水論文自然也多。
絕大多數作者沒有參與審稿
大會官方表示,提交至本屆 NeurIPS 大會的論文出自 15,920 名作者之手。這之中四分之三的人並未受邀擔任程序委員會中的任何職務(審稿人,領域主席(AC)或高級領域主席(SAC))。
剩下的四分之一里,有大約 70% 的人接受了邀請加入程序委員會。此外,大多數審稿人也提交了自己的論文。

那麼,本屆 NeurIPS 中是否存在「搭便車」的現象呢?
如上表所示,這個問題並不嚴重,在拒絕了審稿邀請的人中,只有四分之一向本屆 NeurIPS 提交了論文。這些人中有大概 10%的人提交了五篇甚至更多的論文。
總而言之,在 6,743 篇論文中,至少有一名作者受邀擔任委員會成員的論文只有 769 篇,但他們卻完全沒有參與審稿過程。
領域主席論文多產,接收率也高
現在,讓我們再把目光轉向沒有被列入程序委員會邀請名單的另外四分之三的人。
其中,大約 40% 的作者是沒有與邀請名單上的任何人合作提交論文。這些人的投稿數約佔總投稿數的 30%,然而接收率卻是最低的——僅有十分之一。
正如預期的那樣,受邀擔任高級職務的人提交了更多論文,並且平均接受率更高。下表統計了 AC 的投稿情況。這一數字在高級 SAC 中更高——平均每位 SAC 提交了 5.24 篇論文,接收率為 34.78%。
來自學術界的審稿人與 AC 的比例約為 70%。

發表在 arXiv 上的論文接收率更高
在本次大會中,過半數(54%)的投稿曾經發表在 arXiv 上,其中有 21% 的論文被至少一位審稿人閱讀過。這些被讀到過的論文的接收率為 34%,明顯高於 21.6% 的整體接收率。相比之下,未曾在 arXiv 上發表過的論文的接收率僅為 17%。
不過也很難理清這其中的因果關係:
一種可能存在的情況是:在 arXiv 上發表過的論文質量更高,因為作者認為它們已經達到了公開分享的標準。
另一方面,這也反映了單盲審稿模式中存在的偏見,即知名作者在 arXiv 發表過的論文更有可能被閱讀,並引導審稿人對他們的工作做出積極的評價。
減少或限制投稿量的實驗
近年來各個頂會投稿量的激增給審稿人帶來了很大的工作負擔,導致每次的審稿質量也頗受質疑。因此,NeurIPS 也在考慮採取一些措施限制投稿量,比如如規定每個人投稿數的上限。
在官方博客中,大會放出了一些「如果採納部分建議後」的假設結果。
審稿之前,先讓領域主席篩選
如果在審稿人接手論文之前先讓領域主席篩選一遍,能不能有效減輕審稿人負擔呢?為了測試這個想法,大會做了一個實驗。
他們選了 50% 的領域主席作為實驗對象,給每個人分配一些論文,然後讓他們在不看審稿意見的情況下,直接選出其中最差的 25%,還要給出每個意見的置信度。
如下圖所示,置信度>=5 表示「我確定這篇論文應該被拒」。

結果,這 50% 的領域主席給出了 110 篇置信度>=5 的論文。對比了最後確實被拒的論文,準確率也很高,達到 95.74%。
但問題在於,即使篩掉這 110 篇,或全部領域主席都算上,篩出 220 篇,總共篩選出的論文也不到投稿量的 4%。
所以,這種方法還有待商榷。
限制每個人的投稿數
另一個經常解決方案就是,限制每個人可以提交的論文數。AAAI 甚至已經規定了 2020 年每個作者最多提交 15 篇論文,所以,NeurIPS 也想測試一下這一做法。
下圖展示了個人論文提交數目會對 NeurIPS 2019 的投稿量產生怎樣的影響:k(X 軸)是每個人作為共同作者身份能夠提交的論文數目限制,如 Y 軸所示,這確實導致了投稿量的下降。
由於這是個假想實驗,主辦方也並不知道真實情況下的作者為了符合政策,都會挑選出哪些論文提交。因此,大會官方讓作者在審稿結果公布後再選擇,留下他們被接收的論文,然後隨機選擇 k(最大限制)篇論文。如果某個作者被接收的論文數達不到限制的投稿量上線,大會將從其被拒絕的稿件中隨機挑選稿件來補上空缺。

如果將每人的投稿量上限設置為 15 篇(如 AAAI-2020 採取的措施)只能減少不到 100 份投稿(總數的 1.5%)。如果將這一上限設置為 10,則會減少 4.3% 的投稿(減少 850 次審稿工作),但這對最終的接受結果並沒有太大的影響。
總而言之,也許將「領域主席篩選」和「限制每個人的投稿數」相結合可以充分降低總投稿數,從而使情況有所不同。但是,在真正實施前,仍然需要進一步考慮一下該怎麼具體執行。
只審吸引審稿人注意力的論文
還有一個提議是引入市場機制來控制審稿量。只有那些引起了足夠關注的投稿才會被審閱(所謂的「競標(bid)」機制)。
但下圖中的分析表明,這種「競標」機制很難預測稿件最終的被接收情況。
每篇被接收的論文平均會收到 5.4 份 eager bids,其中有 0.72 來自領域主席。相比之下,被拒絕的論文也收到了 5.1 份 eager bids,其中有 0.64 來自領域主席。如此看來,被接收論文和被拒論文在審稿階段收穫的關注相差無幾。
因此,如果規定只有收到至少 3 份以上 eager bids 的投稿才能被審閱,雖然可以減少總投稿量的四分之一,但應該被接收的論文也會被「誤殺」1/4,得不償失。

下表按作者的類別對此進行了細分,如圖所示,各個類別之間的 eager bid 數基本持平。

審稿質量統計
審稿人分配
審稿人對論文所在領域的熟悉程度是影響審稿質量的一個重要因素,理想情況是為每篇論文分配該領域的一位大牛審稿。因此,如果提交的論文都能夠被在參考文獻中出現的人審閱,那審稿質量自然也會高。
為了統計審稿人在所審論文參考文獻中出現的頻率,NeurIPS 大會統計了提交論文中引用該論文審稿人論文的比例。結果發現,只有不到三分之一的論文引用了審稿人的作品。
不出所料,被引審稿人給出的審稿意見置信度也比較高,因為他們對該領域比較熟悉:NeurIPS 審稿意見的平均置信度為 3.75,大約一半的審稿意見的置信度為 4(對評價結果有信心,但不是絕對確定),但這些被引審稿人給出的意見平均置信度略高於 4,有近 30% 的人的置信度為 5(對評價絕對肯定,對相關工作非常熟悉),幾乎是一般審稿人的兩倍。
雖然上述情況不太理想,但根據大會的官方統計,有 40.6% 的投稿至少獲得了一個置信度為 5 的審稿意見,94.7% 的投稿獲得了一個置信度至少為 4 的審稿意見。所以,審稿質量總體來看還算過得去。
為了改進分稿機制,NeurIPS 還與 CMT 合作,允許領域主席為他們正在處理的特定論文招募外部審稿人。如果 AC 無法在常規審稿人池中找到合適的人選,他們可以向外部審稿人發送針對特定論文的審稿邀請。
超過 40% 的領域主席使用了這個機制,發送了近 400 個審稿邀請(其中 80% 被接受)。領域主席還可以手動調整他們任務棧中自動分配的論文,從無衝突的常規審稿人池中手動選擇審稿人。
雖然大多數領域主席基本上保留了他們被分配的稿件,但 10% 的領域主席重新分配了至少三分之一的稿件——他們處理的每篇論文平均至少有一名審稿人。
如果領域主席可以手動挑選審稿人,他們會對審稿意見更滿意嗎?儘管這些外部評審員大多是初級研究者,但答案依然是肯定的。被評為「超出預期」的審稿意見增加了三分之一,被評為「未能達到預期」的評論則減少了一半以上。
NeruIPS 的審稿意見真的太簡短嗎?No.
大家經常抱怨 NeruIPS 的審稿意見太短,這一次大會統計了 NeurIPS 2019、ICLR 2019 和 COLT 2019 中審稿意見的長度分佈。
不出所料,人類生成的文本長度呈對數正態分佈,但有趣的是,這些參數在不同的會議和審稿形式中分佈非常相似。也就是說,其實 NeruIPS 的審稿意見,並不像直覺上那樣「過分簡略」。

Rebuttal 真的管用
當你寫下反駁意見(rebuttal)的時候,你也許內心在打鼓,初始分數已定,這篇論文重新被接收的可能性有多大?自己所寫的反駁意見能夠讓論文翻盤嗎?

如圖所示,在重新討論以後,大約 20% 的初始分數得以被修改。大概 50% 的投稿至少有一個分數改變了。最終,平均方差從 1.27(反駁前)下降到 0.89(最終結果)。
大會還比較了 2018 年至 2019 年之間的參與度指標:討論期間每篇論文的平均評論數量、平均參與人數、討論帖子的平均字數。所有的數字都上升了,這表明在這一部分的審稿過程中,整體的參與度有所提高。最重要的是,每篇論文的平均討論長度增加了 10%。
演講視頻全知道
通過上面一系列分析,雖然論文過多、審稿壓力大等「世紀難題」並沒有好的解決方案,但我們很欣喜地看到 NeurIPS 2019 有很多優秀的閃光點。我們會發現這樣的頂會正朝着更好的方向前進,不論是論文評審的「搭便車」問題、評審質量,還是 Rebuttal 對最終評審結果的影響,它們都在提升。
近期以來,機器之心已經報道過很多 NeurIPS 2019 相關內容。如果讀者比較感興趣某些演講或研討會,我們非常推薦 NeurIPS 2019 的官方視頻合集,它同時帶有 PPT 與演講者視頻,並且還能翻動 PPT 以直接定位視頻時間點。
演講視頻集地址:https://slideslive.com/neurips

當然,整個會議有很多亮點,比如說超詳細的兩小時 AI 硬件入門教程、更偏理論研究的傑出論文、作者針對神經常微分方程(NeurIPS 2018 最佳論文)的最新反思等等。讀者可以在視頻集中盡情探索,總會有一些能引起我們共鳴的好視頻。如下是機器之心之前對大會內容的報道:
2 小時演講,近 140 頁 PPT,這個 NeurIPS Tutorial 真是超硬核的 AI 硬件教程
1.3 萬人蔘會,NeurIPS 2019 獲獎論文公布,微軟華人學者獲經典論文獎
機器之心之前也做了一些線上論文分享,讀者們也可以看看其它研究者的視頻演講:
視頻 | NeurIPS 2019 分享:清華大學孫富春組提出全新模仿學習理論
視頻 | NeurIPS 2019 分享:華為諾亞方舟提出基於少量數據的神經網絡模型壓縮技術
70 頁參會筆記
那麼其它研究者眼中的 NeurIPS 是什麼樣的呢?布朗大學的博士生 David Abel 公開了他的 NeurIPS 2019 參會筆記,他從深度學習理論、強化學習、博弈論和元學習等主題出發記載參會的一些亮點與主要內容。
值得注意的是,整個參會筆記多達 70 頁,他記載了很多新研究的背景、觀點與解決方案,也是乾貨滿滿。
筆記地址:https://david-abel.github.io/notes/neurips_2019.pdf



這裡我們主要介紹深度學習理論這一主題的研究。當然這條筆記只是一個示例,更詳細的內容可查閱 David Abel 的具體筆記文檔。
對於深度學習理論研究,我們首先需要了解的就是 NeurIPS 2019 新方向的傑出論文,作者 Vaishnavh Nagarajan 在大會上做了非常清晰的一個演講。此外,我們也可以在視頻集中找到作者的演講實錄,視頻結合筆記,食用效果更佳。
傑出新方向論文:Uniform Convergence may be Unable to Explain Generalization in Deep Learning
視頻地址:https://slideslive.com/38921721/track-1-session-1
在這篇論文中,我們首先需要思考,為什麼過參數化的神經網絡擁有較好的泛化性能?之前研究重點關注一致性收斂與泛化邊界,但這篇傑出論文表示,根據一致性收斂理解泛化性誤差很可能是局限的。

在 David Abel 的筆記中,一致性收斂的邊界即測試誤差和訓練誤差之間的差別,最壞情況下能有多大。在筆記中我們可以看到,這項傑出論文發現一致性收斂邊界會隨着參數量的增長而增大,因此這樣的邊界對於深度網絡來說太大了。但也有可能一致性收斂邊界太小,從而兜不住原始網絡。

最終論文作者在問題「一致性收斂能提供泛化能力的完整描述嗎?」上,給出了他們的回答,他們相信一致性收斂暫時是做不到的。研究者表示,也許我們需要數學工具來描述深度神經網絡複雜的決策邊界,需要在一致性收斂之上的一些理論來討論深度學習。
小編親身體驗來說,這 70 頁 NeurIPS 演講筆記真的非常有結構,每一項演講的研究問題與背景、研究發現與貢獻、主要方法與結果都依次展現出來。這對於我們快速找到喜歡的主題非常重要,找到後我們也能進一步參考演講視頻與論文,更深入地理解研究成果。
最後,這位小哥哥參個會能記 60 多頁實質性筆記,並提供一堆參考文獻,相信每位參會者都有自己獨特的收穫,那麼你的 NeurIPS 2019 收穫是什麼?讀者可在下方評論與大家分享你眼中的 NeurIPS 2019,你眼中的大會亮點。
參考鏈接:
https://medium.com/@NeurIPSConf/what-we-learned-from-neurips-2019-data-111ab996462c https://david-abel.github.io/notes/neurips_2019.pdf