NeurIPS 2019傑出機器學習論文獎

  • 2020 年 2 月 11 日
  • 筆記

NeurIPS獎項類似於奧斯卡獎在機器學習的世界中。每年都會提出大量論文,並頒發最佳論文。這是NeurIPS會議的第三十三屆會議,於2019年12月8日至14日在溫哥華舉行。有趣的是,今年的會議有史以來提交的論文數量最多。今年提交了創紀錄的6743次提交,這充分說明了機器學習行業的狀況。實際上領域的增長如此之快,以至於今年會議的門票在不到12分鐘的時間內就被搶購一空。

從提交的大量論文中,接受了1428篇論文,其中3篇被授予。通常分為三類:

  • 傑出論文獎 -會議最佳研究論文
  • 傑出新方向論文獎 –研究論文,為未來的研究奠定了基礎。
  • 時間測試獎 – 10年前在NeurIPS上發表的研究論文,對社區產生了持久的影響。

該NeurIPS委員會由一些指導準則。最好的紙必須具有革命性,創造力並具有一定的優雅感,但是它也具有可行性,現實性和可複製性。它也不應過於複雜和低效。委員會所做的工作非常出色�

優秀論文獎

具有Massart噪聲的半空間的與分佈無關的PAC學習

這是一篇了不起的論文!最令印象深刻的是本文如何提出一種優雅的新方法來解決舊問題。簡而言之,本文探討了最有影響力的機器學習問題之一-學習未知的半空間問題。或者更確切地說,它着重於一種在具有Massart Noise的獨立於分佈的PAC模型中學習半空間的算法。解密一下。半空間是通過超平面將兩個類別(正樣本和負樣本)分開的函數。基本上是二進制分類。它們也稱為線性閾值函數(LTF)),可以這樣表示:

其中符號(U)= 1,如果ü≥0和符號(U)= -1如果ü<0 ,瓦特是權重和X是特徵。簡而言之,它們是將數據分成兩個空格的布爾函數。如果想從深度學習的角度進行觀察,那也是Rosenblatt的Perceptron試圖解決的問題。這裡的主要問題是,如果數據已損壞,則結果取決於基礎噪聲模型。

解決此二進制分類問題的算法之一可能是近似正確(PAC)學習。該模型分析了學習代理是否以及在什麼條件下會輸出近似正確的分類。它是一種無監督的非參數統計技術,主要用於降維。

Massart Noise擴展了這種方法。這是通過以學習代理人未知的小概率翻轉每個樣本/記錄的標籤來實現的。標籤是否翻轉取決於係數n。該因子的值小於1/2。在這項研究中,多項式時間為 證明1 /ε具有等於Massart噪聲水平加ε的額外風險。

在這裡閱讀完整的論文。

https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise.pdf

榮譽獎:

  • Besov IPM損失下GAN的非參數密度估計和收斂速度

https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses

  • 快速準確的最小均方解算器

https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers

傑出新方向論文獎

統一收斂可能無法解釋深度學習的泛化

如您所知,在Rubik's Code上熱愛深度學習,因此本文直接引爆了。面對的是,當今神經網絡已在不同行業用於各種問題。但是情況並非總是如此。實際上,許多行業仍對深度學習持懷疑態度喜歡標準的機器學習模型,因為它們是可以解釋的。對此有充分的理由。這樣的問題:「為什麼在參數化的神經網絡推廣呢?」仍然打開。在大型實際訓練數據集上進行訓練後,神經網絡如何在未曾見過的數據上表現良好?

品種泛化界的神經網絡已發展為特定的原因。泛化界限是關於學習算法(在這種情況下是神經網絡)的預測性能的陳述。基本上,神經網絡被觀察為一個過程,需要一些有限的訓練數據作為輸入並返回關於新的數據的預測的標籤。由於我們假設所有數據(包括訓練和評估)都具有固定分佈,因此可以根據風險來衡量上述預測的質量。這意味着將預測與數據分佈進行比較,風險代表其不兼容程度。概括起來,泛化界是缺陷上的一個概率界。

泛化邊界的大多數基於統一收斂,可以這樣定義。

如果給定任意小的正數ε,則可以找到一個數N,使得函數fn,fn + 1,fn + 2等的每一個,則函數序列fn均等地收斂於集合E上的限制函數f。在E的每個點x與f的差不超過ε。

現在,本文對這一假設提出了挑戰。它提出了一系列實驗,證明統一收斂不能解釋深度學習中的泛化。該實驗是在做MNIST三過paramterized模型和不同的訓練集大小不同的超參數設置的測試數據集。所有模型都根據「 隨機梯度下降」進行訓練。更準確地說,僅在100個維度的數據集上使用隨機梯度下降法訓練僅具有一個隱藏層(具有100k個神經元)的超參數化神經網絡。現在,如果我們增加訓練數據集的大小,則測試錯誤將減少並推廣改善。然而,本文證明了決策邊界不是簡單的,並且當訓練量增加時,均勻收斂會增加邊界。這意味着統一收斂不能完全解釋一般性,我們應該開發不受算法限制的技術。

在這裡閱讀完整的論文。

https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning.pdf

榮譽獎:

  • 端到端:表示的梯度隔離學習

https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations

  • 場景表示網絡:連續的3D-結構感知神經場景表示

https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations

時間考驗

正則隨機學習和在線優化的雙重平均法

最終的獎項授予了在NeurIPS上發表的論文,該論文經受了時間的考驗,並對機器學習社區產生了持久的影響。基本上,委員會概述了十年前被NeurIPS引用最多的論文列表。今年是Lin Xiao的論文,他的研究探索了現代機器學習的基本概念。本文提出了一種正則化對偶平均法(RDA),一種用於解決在線凸優化問題的優化技術。在線凸優化的目標與隨機梯度下降相同–為了最大程度地減少損失,但是執行方式有所不同。本質上,它被模擬為遊戲,玩家在每個時間戳,預測的權重向量和損失。

在本文之前,這種方法存在許多問題。本文可能產生的最大影響是優化方法- 批量優化。意思是,最初只有一部分樣本可用。然後玩家在時間步長t中計算體重矢量。完成此操作後,將基於當前權重使用次梯度來計算損失。在下一時間步驟t + 1中重複該過程。

在這裡閱讀完整的論文。

https://papers.nips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization

結論

在本文中,探討了NeurIPS會議上最有趣的論文。它們將在未來幾年動搖機器學習的世界。