深度學習為何泛化的那麼好?秘密或許隱藏在內核機中

  • 2021 年 10 月 13 日
  • AI
無限寬神經網路與內核機的等價性,揭開了深度學習黑匣子的一角。

編譯 杏花

編輯 | 青暮

在機器學習領域,人工神經網路逐年擴大規模,並取得了巨大成功,但同時它也製造了一個概念性難題。

當一個名為 AlexNet網路在2012年贏得年度影像識別比賽時,大約有6,000萬個參數。這些參數在訓練過程中進行了微調,使AlexNet能夠識別出以前從未見過的影像。兩年後,一個名為 VGG 的網路以超過 1.3 億個參數贏得了全場喝彩。如今,一些人工神經網路(或ANN)甚至達到了數十億個參數。

這些龐大的網路,在影像分類、語音識別和文本翻譯等任務上取得了驚人的表現,已經開始主導機器學習和人工智慧領域。然而,這些網路仍然是神秘的,其驚人的力量背後的原因仍然難以捉摸。

但一些研究人員表明,這些強大網路的理想化版本(比如無限寬)在數學上等同於更古老、更簡單的機器學習模型,即內核機(kernel machines)。如果這種等價性可以擴展到理想化的神經網路之外,就可以解釋實際的人工神經網路為何能取得驚人的效果。

人工神經網路的一部分神秘之處在於,它們似乎顛覆了傳統的機器學習理論,而這些理論嚴重依賴統計學和概率論的觀點。在通常的思維方式中,機器學習模型,包括神經網路,通過學習樣本數據中的模式來預測新數據——特別是當它們擁有正確數量的參數時,表現最佳。

如果參數太少,學習模型可能會過於簡單,無法捕捉訓練數據的所有細微差別。若參數太多,模型則會變得過於複雜,在訓練數據中學習模式的粒度太細,以至於在要求對新數據進行分類時無法泛化,這種現象稱為過擬合。「這是在以某種方式很好地擬合數據和根本不擬合之間的平衡,我們需要找到一個居中點。」加州大學聖地亞哥分校(University of California, San Diego)機器學習研究員Mikhail Belkin如是說。

眾所周知,像VGG這樣的深度神經網路參數太多,應該會過擬合,但事實並非如此。且恰恰相反,這類網路對新數據的泛化能力驚人的好——直到最近,還沒人知道其中的原因。

這並不是因為缺乏這方面的探索。例如,於今年8月去世的耶路撒冷希伯來大學電腦科學家和神經科學家Naftali Tishby認為,深度神經網路首先擬合訓練數據,然後(通過資訊瓶頸)丟棄無關資訊,這有助於它們泛化。但其他人認為,這並不適用於所有類型的深度神經網路,這個想法仍然存在爭議。

現在,內核機和理想化神經網路的數學等價性為這些過度參數化的網路效果如此好的原因和過程提供了線索。內核機是一種演算法,它通過將數據投射到極高的維度中來尋找數據中的模式。也就是說,通過研究理想化神經網路在數學上易於處理的內核機等價對應物,研究人員正在了解為什麼深度網路儘管具有令人震驚的複雜性,但在訓練過程中會收斂到可以很好地泛化到未見過的數據的解決方案。

「神經網路有點像Rube Goldberg機器。你不知道其中哪一部分真正重要。」 Belkin說。「我認為將[它們]簡化為內核方法(因為內核方法沒有這麼複雜),在某種程度上允許我們打開這個黑箱。」


1

尋找線性分隔符

內核方法或內核機,依賴於具有悠久歷史的數學領域。這要追溯到19世紀德國數學家卡爾·弗里德里希·高斯(Carl Friedrich Gauss),他提出了同名的高斯核函數,這一函數將變數x映射到一個熟悉的鐘形曲線的函數。20世紀初,英國數學家James Mercer用核函數來解積分方程,核函數的現代用法開始興起。到了20世紀60年代,核函數被用於機器學習,以處理不適合簡單分類技術的數據。

理解內核方法需要從機器學習中被稱為線性分類器的演算法開始。假設貓和狗只能使用二維數據進行分類,這意味著你需要兩個特徵(比如鼻子的大小,我們可以在 x 軸上繪製,而耳朵的大小可以在y軸上表示)來區分兩種類型的動物。根據x-y平面上繪製標記的數據,貓應該在一個集群中,而狗在另一個集群。

然後我們可以使用標記的數據訓練線性分類器,找出一條將兩個集群分開的直線。這涉及找到表示線的方程的係數。現在,給定新的未標記數據,通過看這些數據落在線的哪一側,很容易將其歸類為狗或貓。

然而,愛狗人士和愛貓人士會對這種過於簡單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實際數據幾乎肯定不能被線性分隔符分割。在這種情況下,當數據是線性不可分的,可以將其轉換或投影到更高維的空間中。(一種簡單的方法是將兩個特徵的值相乘,從而創建出第三個特徵:也許將狗與貓區分開來的鼻子和耳朵的大小之間存在某種相關性。)

更普遍地說,在高維空間中查看數據更容易找到線性分隔符,當空間具有三個以上的維度時,該線性分隔符被稱為超平面。當這個超平面被投影回較低維度時,它將呈現出帶有曲線和擺動的非線性函數的形狀,將原始低維數據分成兩個集群。

然而,當我們處理真實數據時,在高維中找到超平面的係數通常是計算效率低下的,有時甚至是不可能找到的。但內核機不存在這種情況。



2

真理的內核

內核機的強大之處在於它們能完成這兩件事。首先,內核機將低維數據集中的每個點映射到更高維數據集中的一個點。這個超空間的維度可能是無限的,取決於映射,這可能會帶來一個問題:找到分離超平面的係數涉及到計算每一對高維特徵的內積,當數據被投射到無限維時,這就變得很困難。

其次,給定兩個低維數據點,內核機可以使用核函數輸出一個數字,這個數字等於相應的高維特徵的內積。關鍵是,該演算法可以使用這種技巧來找到超平面的係數,而無需真正進入高維空間。

加州大學伯克利分校名譽教授Bernhard Boser說,「內核技巧的偉大之處在於,所有計算都發生在低維空間」,而不是可能的無限維空間。

Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀80年代末和90年代初發明了一類稱為支援向量機 (SVM) 的內核機,當時他們都在新澤西州霍爾姆德爾的貝爾實驗室(Bell Labs)。雖然從20世紀60年代開始,各種類型的內核機已經在機器學習領域取得了顯著的成就,但正是隨著SVM的發明,它們才登上了舞台的中心。事實證明,SVM 非常強大。到21世紀初,它們被廣泛應用於生物資訊學(例如,用於發現不同蛋白質序列之間的相似性並預測蛋白質的功能)、機器視覺和手寫識別等領域。

SVM繼續主導機器學習領域,直到 2012 年AlexNet 的到來,標誌著深度神經網路發展成熟。隨著機器學習社區轉向ANN,SVM陷入困境,但它們(以及一般的內核機)仍然是強大的模型,有很多東西值得我們學習。例如,他們可以做的不僅僅是使用內核技巧來找到一個分離超平面。

「如果你有一個強大的內核,那麼你就可以將數據映射到一個無限維且非常強大的內核空間,」Google研究大腦團隊的研究科學家張志遠(Chiyuan Zhang)說道。「在這個強大的隱藏空間中,你總能找到一個線性分隔符來分隔數據,而且有無限多種可能的解決方案。」

但是,內核理論不是讓你僅僅選擇一個任意的線性分隔符,而是通過限制搜索的解決方案的空間,選擇一個可能的最佳分隔符(對於某些「最佳」的定義而言)。類似於減少模型中的參數數量以防止其過擬合,這一過程稱為正則化。張志遠想知道深度神經網路是否也在做類似的事情。

深度神經網路由多層人工神經元組成。它們有一個輸入層、一個輸出層和至少一個夾在它們之間的隱藏層。隱藏層越多,網路就越深。網路的參數代表了這些神經元之間連接的強度。例如,訓練一個網路進行影像識別,需要反覆向它展示之前分類過的影像,並確定其參數值,以幫助它正確地描述這些影像。經過訓練後,神經網路成為了一個將輸入(比如影像)轉換為輸出(標籤或類別)的模型。

2017年,張志遠和同事對AlexNet和VGG等網路進行了一系列實證測試,以查看用於訓練這些ANN的演算法是否以某種方式有效地減少了可調參數的數量,從而產生了一種隱式正則化形式。換句話說,訓練機制是否使這些網路無法過擬合?

張志遠團隊發現事實並非如此。使用巧妙操縱的數據集,張教授的團隊證明了AlexNet和其他類似的人工神經網路確實會過擬合,而不是泛化。但是,當給定未更改的數據時,使用相同演算法訓練的相同網路並沒有過擬合——相反,它們泛化得很好。這種隱式正則化不可能是答案。張志遠說,這一發現要求「更好地解釋描述深度神經網路中的泛化特徵」。


3

無限的神經元

與此同時,研究表明,較寬的神經網路在泛化方面通常與較窄的神經網路表現一樣好,甚至更好。對某些人來說,這暗示著或許可以通過採用物理學中的策略來理解人工神經網路,「研究極限情況有時可以簡化問題。」Google研究大腦團隊的研究科學家Yasaman Bahri說。為了解決這種情況,物理學家經常通過考慮極端情況來簡化問題。例如,當系統中的粒子數趨於無窮時會發生什麼?Bahri說:「在這些限制條件下,統計效應會變得更容易處理。」從數學上講,如果神經網路層的寬度——即單層神經元的數量——是無限的,那麼神經網路會發生什麼?

1994年,現為多倫多大學名譽教授的Radford Neal提出了一個關於具有單個隱藏層的無限寬網路的確切問題。他指出,如果這個網路的權重被重新設置或初始化,具有某些統計性質,那麼在初始化時(在任何訓練之前),這樣的網路在數學上等價於一個眾所周知的核函數,稱為高斯過程。20多年後,在2017年,包括Bahri在內的兩個研究小組表明,具有許多隱藏層的無限寬理想化深度神經網路也是如此。

這背後的含義是驚人的。通常情況下,即使在訓練了深度網路之後,也不能使用解析數學表達式來對未見過的數據進行預測。你只需要運行深度網路,看看它說了什麼——它就像一個黑匣子。但在理想化的場景中,初始化時網路等價於高斯過程。這時你可以拋棄神經網路,只訓練有數學表達式的內核機器。

「一旦你把它映射到高斯過程中……你就可以通過分析計算預測應該是什麼,」Bahri說。

這已經是個裡程碑式的發現,但它並沒有從數學上描述在實踐中最常見的訓練形式所發生的情況。在後一種情況下,尚不清楚該解決方案如何能夠很好地泛化。

4

開始梯度下降

部分謎團集中在如何訓練深度神經網路上,這涉及一種稱為梯度下降的演算法。「下降」一詞指的是,在訓練過程中,網路穿越了一個複雜的、高維的、布滿山丘和山谷的景觀,景觀中的每個位置都代表了網路對給定的一組參數值所造成的誤差。最終,一旦參數得到適當調整,人工神經網路就會到達一個稱為全局最小值的區域,這意味著它將儘可能準確地對訓練數據進行分類。訓練網路本質上是一個優化問題,即尋找全局最小值,訓練後的網路表示將輸入映射到輸出的幾乎最優函數。這是一個難以分析的複雜過程。

西雅圖華盛頓大學的機器學習專家Simon Du說:「如果你應用一些廣泛使用的演算法,如梯度下降,(人工神經網路)可以收斂到全局最小值,現有的理論無法保證這一點。」 到2018年底,我們開始明白其中的原因。

同樣,正如重大科學進步常表現的那樣,基於對無限寬網路的數學分析,以及它們與更容易理解的內核機器之間的關係,多個研究小組同時得出了一個可能的答案。在Simon Du的團隊和其他人發表論文的時候,一位名叫Arthur Jacot的年輕瑞士研究生在該領域的旗艦會議NeurIPS 2018上展示了他的團隊的成果。

雖然各團隊在細節和工作框架上有所不同,但本質是一致的,即無限寬的深度神經網路,其權值是根據特定的統計屬性初始化的,不僅在初始化時,而且在整個訓練過程中都與核函數完全相同。關於權重的一個關鍵假設是,它們在訓練過程中單個變化很小(儘管無限數量的小變化的凈影響是顯著的)。Jacot和他在瑞士洛桑聯邦理工學院的同事證明了一個無限寬的深度神經網路總是等同於一個在訓練期間不會改變的內核,它甚至不依賴於訓練數據。核函數只依賴於神經網路的結構,如連接的深度和類型。基於它的一些幾何特性,該團隊將其內核命名為神經正切

「我們知道,至少在某些情況下,神經網路可以像內核方法一樣運行,」雅科特說。「這是嘗試真正比較這些方法以試圖了解差異的第一步。」


5

所有的人工神經網路

這個結果最重要的發現是,它解釋了為什麼深度神經網路,至少在這種理想情況下,會收斂到一個好的解。當我們在參數空間中查看人工神經網路時,即從其參數和複雜的損失景觀來看,這種收斂性很難在數學上證明。但由於理想的深度網路相當於一個內核機,我們可以使用訓練數據來訓練深度網路或內核機,最終都會找到一個近似最優的函數,將輸入轉換為輸出。

在訓練過程中,無限寬神經網路所代表的函數的演化與內核機所代表的函數的演化相匹配。當我們看到函數空間時,神經網路和它的等效內核機都在某個超維空間中滾下一個簡單的碗狀景觀。很容易證明梯度下降會讓你到達碗的底部——全局最小值。至少對於這種理想化的場景,「你可以證明全局收斂,」Du說。「這就是為什麼學習理論社區的人們這麼興奮。」

並不是每個人都相信核函數和神經網路之間的這種等價性適用於實際的神經網路——這些神經網路的寬度是有限的,並且其參數在訓練過程中會發生巨大變化。「我認為還需要把一些地方聯繫起來,」張志遠說。此外,還有心理方面的原因:神經網路本身就很神秘,將它們簡化為內核機讓張感到失望。「我有點希望這不是最終答案,因為從舊理論可用的意義上來說,它會讓事情變得不那麼有趣。」

但其他人卻很興奮。例如,Belkin認為,即使內核方法是舊理論,它們仍然沒有被完全理解。他的團隊根據經驗表明,內核方法不會過擬合,並且在不需要任何正則化的情況下可以很好地泛化到測試數據,這與神經網路類似,且與我們對傳統學習理論的預期相反。「如果我們了解了內核方法的發展,那麼我認為這確實為我們提供了打開神經網路這個神秘盒子的鑰匙,」Belkin如是說。

研究人員不僅對核函數有更牢固的數學掌握,從而更容易將它們作為模擬物來理解神經網路,而且從經驗上講,核函數也比神經網路更容易使用。核函數遠沒有那麼複雜,它們不需要隨機初始化參數,而且它們的性能更具有可重複性。研究人員已經開始研究現實網路和核函數之間的聯繫,並對他們在這一新理解上能走多遠感到興奮。

「如果我們建立了絕對、完全的等價,那麼我認為它將在某種程度上改變整個遊戲。」Belkin說。

原文鏈接:

//www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/

雷鋒網