NeurIPS 2019民主大實驗:提升審稿質量、避免「搭便車」,這回都聽你們的!

  • 2019 年 12 月 18 日
  • 筆記

新智元報道

來源:Medium

編輯:大明

【新智元導讀】NeurIPS 2019官方在Medium上更新博客,利用官方統計的立體化數據做了一系列實驗,將社區和網友關於評審流程和評議意見、審稿人分配等建議悉數採納,這回都按你們的意見辦!但分析顯示,產生的結果並沒有想像中的那麼美麗。

在過去五年中,NeurIPS參會人數增長了三倍。今年,通過初審的投稿論文數量達到6743篇(在正式通知收稿6614篇),總計4500多位審稿人撰寫了20000多條評閱意見。NeurIPS 2019的整體接受率為21.6%,共收錄1428篇論文。

第一部分:NeurIPS 2019數據總覽

本屆會議提交論文的作者共有15920人。其中四分之三的人沒有以任何身份(審稿人,區域主席(AC)、資深區域主席(SAC))進入計劃委員會的邀請名單。在剩下的四分之一的人中,約70%的作者接受了我們的邀請,加入計劃委員會。此外,大多數審稿人自己也提交了論文,這也是一個好現象。

受邀擔任更高級職務的人提交的論文更多,並且平均接受率也更高。下表提所示為領域主席的統計數據。資深領域主席的數據略高,平均每人提交5.24篇,接受率為34.78%。

來自學術界的審稿人/ AC的比例約為70%。

有85位作者發表了至少10篇論文。其中只有六人是女性(7%)。我們對提交論文的女性作者的整體比例的臨時估計為13%,幾乎是多產論文作者比例的兩倍。高產論文(10篇以上)作者的平均接受率為24.7%,略高於總體21.6%的接受率。

最後,與2018年相比,以下為按主要學科領域劃分的錄取率的細分圖。該圖按每個領域的論文提交數量進行排序。可以看到,提交最多的主題領域也較存在大比例的低質量論文。

實驗:如果減少或限制提交論文數量,結果會更好嗎?

近年來,一直有人討論NeurIPS的審稿模式問題,為的是更好地處理數量越來越多的投稿論文。本文不妨大膽一些做個實驗,利用NeurIPS 2019的數據,看看如果真的實行了我們聽到的一些建議的話,會出現什麼結果。

意見1:使用與期刊類似的「編輯篩選」

作為一項實驗,我們想要看看AC有多高的水平,能夠在不看審稿人意見的情況下預測其指定的論文會被拒稿(理由可能是創新性不足,經費不足等)。這裡的要解決的問題是,NeurIPS是否應考慮允許AC直接拒掉未經審稿人審閱的論文,減輕審稿人的負擔。這種所謂「編輯篩選」是頂級期刊審稿機制中的常見做法。

我們要求每個AC提供他們認為在分配到的論文中質量排在最後25%的文章(大多數AC是每人5篇),以及他們對每次評估的分數。結果50%的AC給出了808條拒稿意見。下表所示為在不同置信度下被AC拒稿的論文數量,以及相應的「拒稿準確度」:經審稿人審閱後,確實被拒稿的文章數量所佔的百分比。

將評估確定性閾值設為5(如表中最後一行所示)似乎是足夠安全的,但投稿數量並沒有明顯減少。即使只有50%的AC參與了這個實驗,如果閾值設為5,最終無需審稿人審閱、直接可被AC拒掉的論文只佔總投稿數的4%,「減負」效應基本無法體現。

意見2:設置投稿數上限

另一個經常提到的建議是對所有作者可投稿的最大論文數量設置上限。另一個機器學習頂級會議AAAI就規定了2020年會議每位作者的論文提交數量上限(參見AAAI 2020收稿通知)。

如下圖所示,如果允許每個作者參與撰寫k篇投稿論文(X軸表示),會對NeurIPS 2019的論文總投稿數造成什麼影響。如Y軸表示,這確實會導致論文投稿總數的下降。

由於我們並不知道在這個限制下,每個作者會選擇保留哪些文章作為投稿內容,於是在實驗中我們允許每位作者在審稿結果出爐後再進行選擇,保留他們被會議接受的論文,最多隨機允許提交k篇。如果作者仍有任何剩餘位置未使用,則隨機選擇被拒稿的論文將這些位置填滿。

如果設置的最高論文提交數為15篇(與AAAI 2020的規定相一致),結果顯示,會議投稿論文總數僅僅下降了不到100篇,占實際總數的1.5%。如果將上限為10篇,論文投稿總數下降幅度為4.3%(評閱意見可以降低最多850條),但對最終接收結果沒有重大影響。

總而言之,或許同時使用「編輯篩選」和「設置投稿數上限」可能會使投稿情況發生變化,但是在付諸實施之前,需要更多地考慮方式方法。

意見3:用市場調節審稿

還有人提出這樣的建議,利用市場體系對審稿機制進行調控。只安排審稿人審閱自己感興趣的投稿。類似於將投稿對審稿人「掛牌拍賣」。

分析顯示,這種模式並不能很好地預測投稿的接受率。被接受的每篇論文平均收到來自審稿人的5.4次競標(來自AC則為0.72次競標),相比之下,被拒稿的論文只有5.1次(來自AC為0.64次)。因此,讓審稿人只審閱至少收到3次投標的熱門文章,這個做法過於幼稚,會讓投稿總數下降約四分之一,但接受論文總數也會下降四分之一。

意見4:公開審稿

本次大會投稿中的大多數(54%)已經發在了arXiv上;這其中有21%已經被至少一位審稿人查閱過。這些被事先查閱過的論文接受率為34%,大大高於21.6%的整體接受率。相比之下,未在Arxiv上先行發表的投稿被接受率僅為17%。

很遺憾,我們很難確定其中的因果關係。一種明顯的可能是,在arXiv上預先發表的論文質量更高,因為作者認為這些論文可以公開共享。而另一種可能是,這反映了目前「單盲審稿」中的偏見,也就是說對於更知名的作者,審稿人更有可能去arXiv上閱讀其投稿文章,而且可能偏向對其成果做出正面評價。

第三部分:審稿質量問題

審稿人的分配

有沒有能夠客觀衡量的評價質量的代表性指標?一個建議是,看論文中是否引用了審閱該文章的審稿人的成果。那麼,NeurIPS 2019這個指標情況如何?

經過統計,本次大會論文中所引用的人對所有提交的論文中只有不到三分之一進行了審查。正如預期,在提交中被引用確實與置信度分數相關。NeurIPS審稿的平均置信度為3.75,所有評審意見中,大約一半被評為4分(對評分結果有信心,但不是絕對確定)。被引用審稿人的平均置信度略高於4分,其中接近30%的評價為5分(對評估結果絕對確定,非常熟悉相關工作),幾乎是一般審閱率的兩倍。

我們當然希望看到更高的數字,但所有提交的報告中有40.6%的至少一篇評論的可信度為5,而94.7%的評論的可信度至少為4。

如果AC親自挑選審稿人,他們是否對審稿意見更滿意?答案是肯定的,即使這些外部審稿人中的大多數都是初級審稿人。在「精選期望」中,被評為「超出期望」的評論比例增長了三分之一,而在「失敗期望」中被評價的比例降低了一半以上。

反駁,討論和接受統計

作為撰寫反駁意見的論文作者,可能想知道初始分數已經給定的情況下,論文被重新接受的可能性。也就是說,想知道反駁意見能夠改變評議結果的幾率是多少。

在討論階段,約有20%的初始分數發生了變化,至少約佔所有提交內容的50%,至少有一個分數發生了變化。隨着做出決策,平均方差從1.27(反駁前)下降到0.89(最終通知時間)。

我們還比較了2018年至2019年的以下參與度指標:包括討論期間每篇論文的平均評議意見數量,參與會議的平均人數,參與評議討論帖的平均人數。與2018年相比NeurIPS 2019所有數字都有所上升。這表明在評議過程的這部分環節的整體參與度上升了。最重要的是,每篇論文評議討論帖子的平均長度也增加了10%。

結論:都按你們的意見辦,結果並沒有多大改善

綜上,可以得出四點結論:

1、不存在論文「搭便車」的問題:提交的論文相對較少,被邀請參加評審過程的作者都沒有接受邀請。

2、目前尚未找到在全面審閱之前先行快速篩選論文的合適機制:即便允許AC儘早先行拒稿,且沒有做出不當的拒稿決定的情況下,也不太可能對審稿人的工作量產生重大影響。同樣,允許審稿人對特定論文進行審閱的機制,也不能實現為審稿人「減負」的目的。

3、目前沒有明確的證據表明NeurIPS按長度衡量的評審意見質量較低:在評議意見的長度上,NeurIPS與其他規模較小的會議沒有太大不同。

4、在反駁/討論階段的參與度問題:今年會議的總體參與度要高於2018年。

總結起來就是說,大家的意見我們不僅聽到了,而且用真實數據做了實驗,效果嘛,並沒有想像中的那麼美。不過,作為官方博客,能如此認真地組織這個實驗,也足以體現對網絡和社區意見的重視。

參考鏈接:

https://medium.com/@NeurIPSConf/what-we-learned-from-neurips-2019-data-111ab996462c