三巨頭共聚AAAI:Capsule沒有錯,LeCun看好自監督,Bengio談注意力
- 2020 年 3 月 3 日
- 筆記
磐創AI轉載
參與:思源、Jamin
轉自:機器之心
深度學習三巨頭在 AAAI 講了什麼?2019 版 Capsule 這條路走得對;自監督學習是未來;注意力機制是邏輯推理與規劃等高級能力的核心。
2 月 7 日,人工智慧高峰會 AAAI 2020(第 34 屆 AAAI 大會)已於美國紐約正式拉開序幕,本屆會議將持續到 2 月 12 日結束。受疫情影響,中國大陸約有 800 名學者缺席此次會議,很多中國學者選擇遠程參會。
本屆 AAAI 大會共收到了 8800 篇提交的論文,評審了 7737 篇,並最終接收了 1591 篇,接收率為 20.6%。其中中國投稿 3189 篇論文,共被接收 589 篇,為所有國家與地區中投稿量、接收量最多的區域。美國緊隨其後,共被接收 368 篇論文(1599 篇投稿)。

在大會第三天,即當地時間 9 號,AAAI 2020 舉行了 2018 圖靈獎得主主旨演講與圓桌論壇,即深度學習「三座山頭」分別發表了主旨演講,並針對一些前沿問題作出討論。
在這兩個多小時中:
- Geoffrey Hinton 介紹了《Stacked Capsule Autoencoders》,即一種無監督版本的 Capsule 網路,這種神經編碼器能查看所有的組成部分,並用於推斷跟細節的特徵;
- Yann LeCun 在《Self-Supervised Learning》中再次強調了自監督學習的重要性;
- Yoshua Bengio 在《Deep Learning for System 2 Processing》中回顧了深度學習,並討論了當前的局限性以及前瞻性研究方向。
在這特殊的兩個小時里,我們能聽到三位先驅對深度學習的理解與期望,「因為在深度學習概念與工程上的突破,並使深度學習成為計算的一個重要構成」,這正是三位先驅獲得圖靈獎的重要原因。

深度學習「三大巨頭」演講現場。
如下所示第一個影片,目前 AAAI 已經發布了完整的圖靈獎得主演講影片,影片錄製了將近三個半小時,演講內容大概從 1 小時候十分開始。

影片地址:https://vimeo.com/390347111
三位先驅演講核心
其實最好的方式還是親自聽聽三位先驅對深度學習的深刻理解,不過因為演講內容非常豐富,我們可以先概覽一下核心內容。
Hinton:2019 年版的 Capsule 走對了
首先,Hinton 的演講主題其實是他在去年 6 月份發表的一份研究,該論文利用局部圖形之間的幾何關係,從而推理目標是什麼。該研究繼承了之前關於膠囊網路的成果,並擴展到無監督學習任務中。
1. 卷積神經網路的缺陷
Hinton 首先具體分析了傳統卷積神經網路的局限性。例如視角的轉換會造成 CNN 識別失敗,它解析影像的方式還存在很多問題。
事實上,卷積網路並不理解影像整體與局部之間的關係,它只是儘可能描述二維空間上的影像資訊。每一層卷積網路包含越來越多的上下文資訊,從而描述影像不同位置到底發生了什麼。

Hinton 表明,電腦視覺與電腦圖形學應該是互為逆問題。圖形學使用層級模型,該模型的空間結構由矩陣建模以表徵轉換關係,這種關係即整體嵌入的坐標幀(coorfinate frame)轉化到每一個組成部分嵌入的坐標幀。這種採用矩陣的方法對視角的變化完全是穩健的,這種表徵也能快速計算組成部分與整體之間的關係。
所以與圖形學相對,採用這種類似的表徵來處理 CV 中視角的變化是一種極好的方法。
2.Capsule 直觀思想
一個目標可以視為一組相互聯繫的組成部分,它們應該是通過幾何關係組織的。如果有一個系統,它能充分利用這些幾何關係來識別目標,那麼這種系統天生就是非常魯棒的,因為固有的幾何關係對視角而言是不變的。
根據這種直觀思想,Hinton 等研究者介紹一種無監督版本的膠囊網路,其中編碼器可以觀察影像完整的組成部分,並用於推斷目標類別。這種神經編碼器可以通過解碼器中的反向傳播過程進行訓練。
對於 第一版採用動態路由的 CapsNet,以及後面採用 EM Routing 的膠囊網路,它們都是 Hinton 等研究者的早期嘗試,它們分別被 NeurIPS 2017 與 ICLR 2018 接收。在 AAAI 2020 的演講上,Hinton 說:「忘了前面所有版本的 Capsule,它們都是有誤的,2019 年這個版本是對的。」

Hinton 所說的 2019 版即 Stacked Capsule Autoencoders(SCAE),它採用無監督學習方式,並使用矩陣來表達整體與組成部分之間的關係。而之前判別式 Capsule 的表徵方式並不一樣,它採用矩陣表示組成部分與整體之間的關係。
在第一次提出 CapsNet 時,Geoffrey Hinton 介紹到:「Capsule 是一組神經元,其輸入輸出向量表示特定實體類型的實例化參數(即特定物體、概念實體等出現的概率與某些屬性)。我們使用輸入輸出向量的長度表徵實體存在的概率,向量的方向表示實例化參數(即實體的某些圖形屬性)。同一層級的 capsule 通過變換矩陣對更高級別的 capsule 的實例化參數進行預測。當多個預測一致時(本論文使用動態路由使預測一致),更高級別的 capsule 將被激活。」
而現在到了 2019 年版 Capsule,他表示 Capsule 為一組用來表徵相似形狀或組成部分的神經元。如下兩個正方形與橢圓組成的圖形為一個 capsule 單元:

3. 新模型核心概念
Hinton 在演講中表示:「讀懂了下圖這張 PPT,就讀懂了整個模型。」對於 SCAE 來說,它主要包含兩個階段,第一階段 Part Capsule Autoencoder (PCAE) 會將影像分割為組成部分,並推斷出它們的姿態(Pose)。
第二階段 Object Capsule Autoencoder (OCAE) 會嘗試組織挖掘的組成部分、前面推斷出來的姿態,並構建更小的一組目標。這種目標能通過不同組成部分自己的混合預測來構建對應的姿態。

Hinton 等研究者在未標註數據上訓練 object-capsules 和 part-capsules,並聚類 object capsule 中的向量,實驗結果表明這種無監督膠囊網路具有非常好的屬性。Hinton 在演講的後面介紹了 SCAE 的效果及可視化,感興趣的讀者也可以具體看看論文。

無監督膠囊網路通過相互獨立的 object capsule 來解釋不同的目標類別。選自 arXiv: 1906.06818。
最後,Hinton 對目前的 Capsule 研究做出總結,儘管直接學習組成部分之間的幾何關係非常有吸引力,但我們還需要克服很多阻力。例如,推斷 high-level capsule 哪一個是存在的,它們的姿態又是什麼樣的,這樣的問題比較困難。我們也許可以使用 Transformer 幫助解決這個問題。

LeCun: SSL 才是未來
首先解釋他的理解什麼是深度學習,並簡單介紹了下監督學習及強化學習。LeCun 表示利用監督學習方法確實可以做一些有效的工作,不過會要求大量標記後的樣本及數據,當有足夠的數據時,監督式學習表現出的效果會非常好。而另一方面的強化學習,雖然在遊戲中和模擬中的效果很好,如果要應用至現實生活中還需要大量的試驗否則後果會非常嚴重。並提出了他所認為的目前深度學習三大挑戰:

- 當標籤數據充足時,針對於感知的監督學習才會有不錯的效果
- 當實驗成本低廉的時候(如在模擬實驗中)強化學習才可以有較好的效果
- 以及在當下整個社區都在推進的三個問題:嘗試使用更少的標記樣本或者更少的實驗去訓練,嘗試學會推理並超越簡單的感知計算,嘗試規劃複雜的動作序列。
而對於 LeCun 最傾向的自監督學習,他則表示自監督學習相當於在填補空白,就目前來說自監督學習在自然語言處理領域表現的非常不錯,而在影像識別及影像理解方面表現的效果卻是一般。

相比於強化學習,監督式學習以及自監督學習,LeCun 認為強化學習屬於弱回饋,監督學習雖然可以預測一個類別或數字但是屬於中等回饋,而自監督學習可預測其輸入的任何一部分(如預測影片中未來的畫面)則可以產生大量回饋,從而應用廣泛。
其次主要舉例介紹了基於能量的建模,其核心目的是能夠學會處理不確定性的同時合理避開可能性,並詳細分享了塑造能量函數的七種策略應該是什麼樣的。
另一方面的案例則是基於自動駕駛方向,自動駕駛一個(隨機)正向模型的學習,其本質是學會預測周圍的人都會做什麼。通過使用自監督模型進行規劃及學習,使用前向模型去了解如何和駕駛,比如訓練前向模型用於預測每輛車相對位於中央位置車的運動情況等。
最後,LeCun 表示自監督學習(SSL)才是未來發展的趨勢,它能在各種任務中學習到分層特徵,以及現實生活中可使用的海量數據作為資源。但並不是盡善盡美,同時也面臨處理預測中不確定性的挑戰,比如之前的案例基於能源的模型。

而針對基於向量表示和能量最小化的推理而言,目前還有大量的工作要去完善。LeCun 只列舉了兩個例子,具有潛變數基於能量的模型,以及他之前一再提及的用向量代替符號,用連續函數代替邏輯。而針對如何學習行動規劃的等級表示法,他表示目前也是毫無頭緒。
Bengio:注意力機制是核心
目前深度學習是什麼樣的,如果要獲得更強的學習能力,未來的發展方向又是什麼樣的?Yoshua Bengio 首先就表示,根據「沒有免費午餐定理」,並不存在完全通用的智慧,歸納偏置與先驗知識在智慧系統中都是需要的。目前深度學習已經整合了人類啟發的先驗知識,但更強的先驗知識對於樣本複雜度是指數級的收益。
Bengio 首先介紹了系統 1 與系統 2 之間的差別,目前深度學習正處於系統 1,它在感知層面上已經有非常不錯的效果。正如之前的一條經驗法則,如果人類能在幾秒內做出判斷的問題,那麼機器學習也有潛力來解決。而對於系統 2,它需要更多的邏輯推斷、規劃,它正是深度學習未來應該解決的問題。

對於系統 2「有意識地運算」,Bengio 表明最核心的組成部分之一就是注意力機制,它在同一時間內會關注某些最為重要的神經元。完全採用注意力機制的 Transformer,也是目前 NLP 最強大的模型。
Bengio 表明,注意力機制其實就像動態連接,接受者會受到選定的值。注意力機制也可以追溯到認知神經科學,選定的值會傳播到其它神經元,並儲存在短期記憶中。

後續,Bengio 還介紹了很多系統 2 中的深度學習,它們應該是什麼樣的。例如對於挖掘因果與影響關係,其實它類似於如何分解一個聯合分布。
最後,對於演講中給出的眾多假設,Bengio 說,這是他們實驗室對真實世界的理解,如果它們能夠嵌入現有的機器學習系統,那麼就能構建一些非常強力的能力,這些能力能帶領深度學習進入系統 2。

三巨頭圓桌討論
在三位深度學習先驅介紹了自己所思所想之後,還有半個小時的圓桌論壇,讀者們可以通過原影片看看大佬之間的對話。
雖然目前深度學習在眾多任務上取得了成功,但它同時也飽受質疑。不過三位先驅都認為通過一些強有力的工具,深度學習能以更合理的方式學習更高級的能力。

三位先驅的演講都特別關注無監督或者自監督學習,對於 Hinton 來說,Capsule 這個概念在無監督學習上找到了最合適發展方式;LeCun 則一直提倡採用自監督學習,它類似於降噪自編碼器,利用完整數據監督不完整數據的修復。Bengio 從「系統 2」出發,探討先驗知識如何降低數據的需求。
在圓桌會上,經常會有一些非常有意思的話題,例如主持人 MIT 教授 Leslie Kaebling 說:「很多人注意到深度學習與符號 AI 有一些不同的見解,那麼這兩者能握手言和嗎?」Hinton 打趣道,這兩個學派其實是有著悠久的歷史。
最後三位先驅還討論了深度學習這個研究領域的結構,以及未來的發展方向。Bengio 注意到現在年輕研究者發表論文的機會,要比他讀書時多得多。但對於更多的研究者,他們應該將眼光放遠一點,關注更多的長期問題。
Hinton 接著說:「如果我們對某個過程有新想法,那麼會對這個主題進行短期的研究,只要有一些進步,就可以發一篇論文。這就像我們拿到了一本數獨題集,我們會快速瀏覽一遍,然後找到那些容易解決的題目,並填上數獨。這對其它研究者來說也是不好的體驗。」
深度學習正在快速發展,每一年模型與研究都是新面貌。三位先驅的思想與觀點,也許正指明了未來的發展方向。