深度學習簡史

  • 2019 年 10 月 5 日
  • 筆記

版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。

本文鏈接:https://blog.csdn.net/weixin_36670529/article/details/100598724


一、概述

深度學習可以追溯到20世紀40年代。深度學習看似是一個全新的領域,最不過因為在目前流行的前幾年它還是相對冷門的,同時也因為它被賦予了許多不同的名稱(其中大部分已經不再使用),最近才成為眾所周知的「深度學習」。這個研究領域已經更換了很多名稱,它反映了不同的研究人員和不同觀點的影響。一般認為,迄今為止深度學習已經經歷了3次發展浪潮:20世紀40年代到60年代,深度學習的雛形已經出現在控制論(cybeinetics)中;20世紀80年代到90年代,深度學習表現為連接主義(connectionsm);直到2006年,才真正以深度學習之名復興。

二、控制論背景下的ANN

我們今天直到的一些最早的學習算法,旨在模擬生物學習的計算模型,即大腦怎樣學習或為什麼能學習的模型。其結果是深度學習以人工神經網絡(arificial neural network, ANN)之名而淡去。彼時,深度學習模型被認為是受生物大腦(無論人類大腦或其他動物的大腦)所啟發而設計出來的系統。儘管有些機器學習的神經網絡有時被用來理解大腦功能,但它們一般都沒有設計成生物功能的真實模型。深度學習的神經觀點受兩個主要思想啟發:一個想法是,大腦作為例子證明智能行為是可能的,因此,概念上,建立智能的直接途徑是逆向大腦背後的計算原理,並複製其功能;另一種看法是,理解大腦和人類智能背後的原理也非常有趣,因此機器學習模型除了解決工程應用的能力,如果能讓人類對這些基本的科學問題有進一步的認識,也將會很有用。

現代術語「深度學習」超越了目前機器學習模型的神經科學觀點。它訴諸於學習多層次組合這一更普遍的原理,這一原理也可以應用於那些並非受神經科學啟發的機器學習模型。現代深度學習最早的前身是從神經科學的角度出發的簡單線性模型。這些模型設計為使用一組n個輸入

,並將它們與一個輸入y相關聯。這些模型希望一組權重

,並計算它們的輸出

。第一次神經網絡研究浪潮稱為控制論。

三、連結主義

MeCulloch-Pitts神經元是腦功能的早期模型。該線性模型通過檢驗函數

的正負來識別兩種不同類型的輸入。顯然,模型的權重需要正確設置後才能使模型的輸出對應於期望的類別。顯然,模型的權重需要正確設置後才能使模型的輸出對應於期望的類別。這些權重可以由操作人員設定。20世紀50年代,感知機稱為第一個能根據每個類別的輸入樣本來學習權重的模型。感知機成為第一個能根據每個類別的輸入樣本來學習權重的模型。大約在同一時期,自使用線性單元(adaptive linear element,ADALINE)簡單地返回函數f(x)。本身的值來預測一個實數,並且它還可以學習從數據預測這些數。

這些簡單的學習算法大大影響了機器學習的現代景象。用於調節ADALINE權重的訓練算法是被稱為隨機梯度下降(stochastic gradient descent)的一種特例。稍加改進後的隨機梯度下降算法仍然是當今深度學習的主要訓練算法。基於感知機和ADALINE中使用的函數f(x, w)的模型稱為線性模型(linear model)。儘管在許多情況下,這些模型以不同於原始模型的方式進行訓練,但仍然是目前最廣泛使用的機器學習模型。線性模型有很多局限性。最著名的是,它們無法學習異或(XOR)函數,即f([0,1],w)=1和f([1,0],w)=1,但f([1,1],w)=0和f([0,0],w)=0。觀察到線性模型這個缺陷的批評者對受生物學啟發的學習普遍地產生了抵觸。這導致了神經網絡熱潮的第一次大衰退。

現在,神經網絡科學被視為深度學習研究的一個重要靈感來源,但已不再是該領域的主要指導。如今神經科學在深度學習研究中的作用被削弱,主要原因是我們根本沒有足夠關於大腦的信息來作為指導去使用它。要獲得對被大腦實際使用算法的深刻理解,我們需要有能力同時監測(至少是)數千相連神經元的活動。我們不能夠做到這一點,所以我們甚至連大腦最簡單、最深入研究的部分都還遠遠沒有理解。

神經科學已經給我們依靠單一深度學習算法理解許多不同任務的理由。神經學家們發現,如果將雪貂的大腦重新連接,使視覺信號傳輸到聽覺區域,它們可以學會使用大腦的聽覺處理區域去看「看」。這暗示着大多數不如動物的大腦使用單一的算法可以解決的大部分不同任務。在這個假設之前,機器學習研究是比較分散的,研究人員在不同的社群研究自然語言處理、計算機視覺、運動規劃和語音識別。如今,這些應用社群仍然是獨立的,但是對於深度學習研究團體來說,同時研究許多甚至所有這些應用領域是很常見的。

我們能夠從神經科學得到的一些粗略指南。僅通過計算單元之間的相互作用變得智能的基本思想是受大腦啟發的。新認知機受哺乳動物視覺系統的結構啟發,引入了一個處理圖片的強大模型架構,它後來成為了現代卷積網絡的基礎。目前大多數神經網絡時基於一個稱為整流線性單元(rectified linear unit)的神經單元模型。原始認知機受我們關於大腦功能知識的啟發,引入了一個更複雜的版本。簡化的現代版通過吸收來自不同觀點的思想而形成,Nair、Hinton和Glorot等援引神經科學作為影響,Jarrett援引更多面向工程的影響。雖然神經科學是靈感的重要來源,但它不需要被視為剛性指導。我們知道,真實的神經元計算着與現代整流線性單元非常不同的函數,但更接近真實神經網絡的系統並沒有導致機器學習性能的提升。此外,雖然神經科學已經成功地啟發了一些神經網絡架構,但我們對用於神經科學的生物學習還沒有足夠多的了解,因此也就不能為訓練這些架構用的學習算法提供太多的借鑒。媒體報道經常強調深度學習與大腦的相似性。的確,深度學習研究者比其他機器學習算法領域(如核方法或貝葉斯統計)的研究者更可能地引用大腦作為影響,但是大疆不應該認為深度學習在嘗試模型大腦。現代深度學習從許多領域獲取靈感,特別是應用數學的基本內容,如線性代數、概率論、信息論和數值優化。儘管一些深度學習的研究人員引用神經科學作為靈感的重要來源,然而其他學者完全不關心神經科學。

值得注意的是,了解大腦是如何在算法層面上工作的嘗試確實存在且發展良好。這項嘗試主要被稱為「計算神經科學」,並且是獨立於深度學習的領域。研究人員在兩個領域之間來回研究是很常見的。深度學習領域主要關注的構建計算機系統,從而成功解決需要智能才能解決的任務,而計算神經科學領域主要關注如何真實工作的、比較精確的模型。

20世紀80年代,神經科學領域研究的第二次浪潮在很大程度上是伴隨一個被稱為聯結主義(connectionism)或並行分佈處理(parallel distributed processing)潮流而出現的。聯結主義是在認知科學的背景下出現的。認知科學是理解思維的跨學科途徑,即它融合多個不同的分析層次。20世紀80年代初期,大多數認知科學家研究符號推理模型。儘管這很流行,但符號模型很難解釋大腦如何真正使用神經元實現推理功能。聯結主義者開始研究真正基於神經系統實現的認知模型,其中很多復蘇的想法可以追溯到心理學家Donald Hebb在20世紀40年代的工作。在20世紀80年代的聯結主義期間形成的幾個關鍵概念在今天的深度學習中仍然是非常重要的 。

其中一個概念是分佈式表示。其思想是:系統的每一個輸入都應該由多個特徵表示,並且一個特徵都應該參與到多個可能輸入的表示。例如,假設我們有一個能夠識別紅色、綠色或藍色的汽車、卡車和鳥類的視覺系統,表示這些輸入的其中一個方法是將9個可能的組合:紅卡車、紅汽車、紅鳥、綠卡車等使用單獨的神經元或隱藏層單元激活。這需要9個不同的神經元,並且每個神經元必須獨立地學習顏色和對象身份的概念。改善這種情況的方法之一是使用分佈式表示,即用3個神經元描述顏色,3個神經元描述對象身份。這僅僅需要6個神經元而不是9個,並且描述紅色神經元能夠從汽車、卡車和鳥類的圖像中學習紅色,而不僅僅是從一個特定類別的圖像中學習。分佈式表示的概念是本書的核心。

聯結主義浪潮的另一個重要成就是反向傳播在訓練具有內部表示的深度神經網絡中的成功使用以及反向傳播算法的普及。這個算法雖然層黯然失色且不再流行,但是現在仍然是訓練深度模型的主導方法。

四、深度學習的復興

20世紀90年代,研究人員在使用神經網絡進行序列建模的方面取得了重要進展。Hochreiter和Bengio指出了對長序列進行建模的一些根本性數學難題。Hochreiter和Schmidhuber引入了長短期記憶(long short term memory, LSTM)網絡類解決這些難題。如今,LSTM在許多序列建模任務中廣泛應用,包括Google的許多自然語言處理任務。神經網絡研究的第二次浪潮持續到20世紀90年代中期。基於神經網絡和其他AI技術的創業公司開始尋求投資,其做法野心勃勃但不切實際。當AI研究不能實現這些不合理的期望時,投資者感到失望。同時,機器學習的其他領域取得了進步。比如,核方法和圖模型都在很多重要任務上實現了很好的效果。這兩個因素導致了神經網絡熱潮的第二次衰退,並一直持續到2007年。

在此期間,神經網絡繼續在某些任務上獲得令人印象深刻的表現。加拿大高級研究所(CIFAR)通過神經計算和自適應感知(NCAP)研究計劃幫助維持神經網絡研究。該計劃聯合了分別由Geoffrey Hinton、Yoshua Bengio和Yann LeCun領導的多倫多大學、蒙特利爾大學和紐約大學的機器學習研究小組。這個多學科的CIFAR NCAP研究計劃還包括了神經科學家、人類和計算機視覺專家。

在那個時候,人們普遍認為深度網絡是難以訓練的。現在我們知道。20世紀80年代就存在的算法能工作得非常好,但是直到2006年的突破。Geoffery Hinton表明「深度信念網絡」的深度網絡可以使用一種稱為「貪婪逐層預訓練」的策略來有效地訓練。其他CIFAR附屬研究小組很快表明,同樣的策略可以被用來訓練許多其他類型的深度網絡,並能系統地幫助提高在測試樣例上的泛化能力。神經網絡研究的這一次浪潮普及了「深度學習」這一術語,強調研究者現在有的能力訓練以前不可能訓練的比較深的神經網絡,并力着於深度的理論的重要性上。此時深度學習已經優於與之 競爭的基於其他機器學習技術以及手工設計功能的AI系統。