NeurIPS 2019 獲獎論文出爐,微軟華人學者Lin Xiao 獲經典論文獎
- 2019 年 12 月 18 日
- 筆記
編輯 | 唐里
作為最久負盛名的機器學習頂會之一,今年 NeurIPS 2019 在召開之前就消息不斷:在今年論文審稿期間,NeurIPS 2019 程序委員會主席專門發佈聲明稱,19 篇論文因一稿多投被拒收,一時造成熱議;而在會議近一個月前,多位黑人蔘會者們申請加拿大簽證被拒的消息引起了AI學者們紛紛為其發聲並對近年來簽證問題的討論展開了激烈討論,為本次大會的召開埋下了一絲令人憂心的伏筆。
另一方面,無論是論文投稿期間一度導致 NeurIPS 服務器宕機,還是今年大會「別出心裁」地採取抽彩票的方式決定誰能獲得參會門票,都暗示着今年大會的盛況不減甚至會更超出往年。
自昨日開始,12月8日至14日為期7 日的NeurIPS 2019 便已如火如荼地在加拿大溫哥華舉行。據大會官方統計,今年參會總人數超過 13000 人,與去年不到 9000 人的參會人數相比,翻了半番。溫哥華在今年這個冒着冷氣的冬季里,一時迎來如此龐大的參會人群,溫度估計都「升了好幾度」。

Photo by James Kelloway
雖然正會還未正式開始,但 NeurIPS 官方在幾個小時前已早早地公布了今年備受矚目的「傑出論文獎」(Outstanding Paper Award)、「經典論文獎」(Test of Time Award)以及今年增設的「傑出新方向論文獎」(Outstanding New Directions Paper Award)的獎項結果。
從獲獎論文清單中,我們可以看出,除了經典論文獎是由來自微軟研究院的 Lin Xiao獲得外,其他獎項中都沒有出現華人身影。
一、最佳論文
按照慣例,今年NeurIPS 2019最佳論文組委會從會議接收的Oral 論文中挑選出了最值得關注的論文並授予傑出論文獎項。據官方介紹,今年的論文獎項評選規則如下:
具備持久影響的潛力——論文聚焦於某個主流而非邊緣化的研究領域,人們在未來的幾十年時間裏依舊會關注它。
- 有觀點——提供了新的(並且希望是深的)見解,而不僅僅是在性能上提高几個百分點。
- 創造性/讓人出乎意料/令人驚奇——以創造性的新視角去看待問題,並且得出了真正讓讀者驚喜的結果。
- 變革性——將從根本上改變未來人類思考問題的方式。
- 嚴謹性——無懈可擊的細緻和嚴謹。
- 優雅——論文漂亮、工整、流暢並經過很好地潤色。
- 現實性——不過分強調重要性。
- 科學性——能夠證偽。
- 可重複性——結果能夠真正可重複、代碼可用並且能夠在多種機器上運行、數據可用以及能夠提供詳細的證實。
與此同時,組委會在評選論文時,還應該關注論文是否存在以下幾點問題(並避免選擇存在這些問題的論文):
- 低效——需要以消耗大量資源為前提才能夠脫穎而出的工作(主要依賴於消耗大量資源在排行榜上獲得了更高的排名)
- 時髦——採用某個方法是因為此方法比較熱門,但其實還可以採用其他更加高效的方法。
- 過於複雜——論文中加入了本不需要的複雜性。
以上這些因素,或許值得每一位想要拿得國際頂會最佳論文獎的研究者/機構,去思考和借鑒。
與此同時,今年最佳論文組委會還專門增加了「傑出新方向論文獎」(Outstanding New Directions Paper Award)獎項,以此表彰在「針對未來研究開設出了創新路徑」方面表現出色的研究者。
遵循上述原則,組委會提交了一份包含三篇論文的短名單以及另一份包含8篇論文的備選名單,之後再由組委會成員獨自對備選名單中的8篇論文進行評估並給出排名結果,接着互相交流這些結果。同時針對每篇論文,組委會成員還會額外尋求專家的意見(並在決策中將這些意見考慮進去)。
最終組委會成員彼此達成一致意見,並經過簡短的討論後決定獲獎名單。以下是各個最佳論文獎項的簡要介紹——
1、最佳論文獎

論文標題:Distribution-Independent PAC Learning of Halfspaces with Massart Noise 中文翻譯:有Massart噪聲時的不依賴分佈的半空間的PAC學習 下載地址:https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise
這篇論文研究了在訓練數據中有未知的、有界的標籤噪聲的情況下,如何為二分類問題學習線性閾值函數。論文中推導了一個在這種情境下非常高效的學習算法,解決了一個基礎的、長期存在的開放性問題:在有Massart噪聲的情況下高效地學習半空間;這也是機器學習的核心問題之一,這篇論文帶來了巨大的進步。
論文中的一個簡單的例子說明了方法的效果。在此之前,只有1% Massart噪聲就會讓弱學習無效(達到49%的錯誤率)。論文中展示了如何高效地讓錯誤水平上限僅僅等於Massart噪聲水平+ε (算法的運行時間為(1/ε)的多項式,正如預期)。算法的實現方法很精密,達到這樣的結果也有一定的技術挑戰。最終的結果是,能夠高效地在(1/ε)的多項式運行時間內讓錯誤水平上限為Massart噪聲水平+ε 。
2、傑出新方向論文獎

論文標題:Uniform convergence may be unable to explain generalization in deep learning 中文翻譯:一致收斂性可能無法解釋深度學習中的泛化性 下載地址:https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning
這篇論文展示了一些基本負面的結果,表明對深度學習算法表現的許多現有的(基於範數的)泛化邊界描述方法並不能達到聲稱的效果。論文中認為,當這些泛化邊界描述方法繼續依賴雙面的一致收斂性的時候,就無法達到宣稱的效果。雖然這篇論文並沒能解決(也沒打算解決)深度神經網絡中的泛化性問題,它的效果是為整個領域指出這個問題需要嘗試別的方法。
3、傑出論文榮譽提名獎

論文標題:Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses 中文翻譯:在Besov IPM損失下研究GANs的非參數化密度估計和收斂速度 下載地址:https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses
這篇論文通過嚴謹的理論方式表明,GANs在密度估計任務中可以比線性方法有更好的表現(以收斂速度來評價)。利用了此前小波收縮方面的成果,這篇論文讓我們對GANs的表徵能力有了新的認識。具體來說,作者們在一大類函數(Besov空間的)的一大類損失下(我們稱作「積分可能性指標」),為非參數化的密度估計推導了最大最小收斂速度。審稿人們覺得這篇論文會對研究非參數化估計以及研究GANs的研究人員們有很大的影響。

論文標題:Fast and Accurate Least-Mean-Squares Solvers 中文翻譯:又快又準確的最小均方解算器 下載地址:https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers
最小均方解算器(Least Mean-Square solver)是許多機器學習算法的核心組件,從線性回歸、Lasso回歸到奇點值分解和Elastic網絡,都會用到最小均方解算器。這篇文章展示了如何把最小均方解算器的計算複雜度降低一到兩個數量級,而且既沒有精度損失、還能提升數學穩定性。他們的方法依賴於Caratheodory理論,提出一組核心的點集(對於d維空間,需要d^2+1個點)就足以刻畫凸殼中的所有n個點。論文的創新性在於,他們提出了一個「分割並解決」(divide-and-conquer)算法,能用可接受的計算複雜度提取出這組核心點集(計算複雜度O(nd + d5 log n),前提是d<<n)。
審稿人們認為論文中提出的方法非常重要,需要使用最小均方解算器的研究人員們可以輕鬆地實現這個方法,以對現有的算法帶來明顯改進;這個方法也可以為其它的算法起到借鑒作用,實踐-科研的遞歸循環,天然地就擁有良好的泛化能力。
4、傑出新方向論文榮譽提名獎

論文標題:Putting An End to End-to-End: Gradient-Isolated Learning of Representations 中文翻譯:端到端:表示的梯度隔離學習 下載地址:https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations
這篇論文重新研究了神經網絡的逐層構建問題,他們使用了從van Oord et al. (2018)得到啟發的自監督條件,尤其是當前輸入和空間或時間上臨近的輸入的表徵之間的共同信息。審稿人們注意到,這種感知網絡中的自組織現象能夠為算法角度和認識角度的交叉部分提供思考的素材(算法角度,端到端優化有巨大的存儲空間開銷和計算能力問題,有沒有方法繞過;認知角度,能否更多地利用「慢特徵」的想法,向著「模仿生物大腦」的學習過程前進)。

論文標題:Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations 中文翻譯:場景表示網絡:連續的3D-結構感知神經場景表示 下載地址:https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations
這篇文章介紹了 CV 中兩種廣泛方法的綜合:多視圖幾何( multiple view geometric )和深層表示( deep representations )。
具體來說,這篇文章做出了三點貢獻:1)每個像素的神經渲染器,可以以3D感知的方式實現無分辨率的場景渲染;2)可微分的光線行進算法( ray-marching algorithm ),解決了沿着相機投射的光線尋找表面相交的難題;3)潛在場景表示(latent scene representation),使用自動編碼器和超網絡來回歸場景表示網絡的參數。
二、經典論文獎
與之前一樣,NeurIPS的委員會從10年前發表在NeurIPS上的論文中選擇一篇對社區產生「重大且持久影響」的論文作為「經典論文獎」(Test of Time Award)。
「經典論文獎」的委員會成員包括Amir Globerson, Antoine Bordes, Francis Bach 和 Iain Murray。檢驗獎的選取過程是,首先選出 18 篇自發表以來引用次數最多的文章,然後再去看哪些文章即使在現在仍然具有影響力(即在現在的工作中仍然具有指導、參考和借鑒的意義),當然委員會還會考慮論文是否被如今大多數社區所使用。
綜上這些因素,幾位委員會成員在今年選出了

論文標題:Dual Averaging Method for Regularized Stochastic Learning and Online Optimization 中文翻譯:正則隨機學習和在線優化的雙重平均法 論文鏈接:https://papers.nips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization
作為本年度的「經典論文獎」。這篇文章發表於2010年,作者是來自微軟的首席研究員 Lin Xiao,Google Scholar 統計的引用次數為 645。這篇文章提出了一種全新在線算法:正則化雙重平均算法(RDA)。實驗證明,RDA 對於ℓ1 正則化的稀疏在線學習非常有效。

Lin Xiao 曾就讀於北京航空航天大學和斯坦福大學,2006年就職於華盛頓州雷德蒙德的微軟研究院,目前擔任微軟的高級首席研究員,研究興趣包括用於大規模優化的理論和算法、用於機器學習的隨機和在線算法以及並行和分佈式計算。
三、再說一句

在會議手冊中,提到下一屆NeurIPS 將仍然在加拿大溫哥華舉辦,而隨後(NeurIPS 2021)則會到悉尼(澳大利亞)舉辦。