深度學習三巨頭齊聚AAAI 2020，辯論現場幽默詼諧深刻恢弘，這是遲來的致敬！

2020 年 2 月 24 日
筆記

作者 | 楊曉凡

編輯 | 賈偉

我們經常一同提起 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 這被合稱為「深度學習三駕馬車」的三個名字，但卻並不常見到他們三個人在同一個場合出現——甚至在 ICLR 之前，三個人全都不怎麼參與學術會議。如今深度學習無可辯駁地在學術研究和實際應用中都成為了最炙手可熱的技術，三人也獲得了 2018 年圖靈獎，AAAI 2020 設置了「圖靈獎得主特殊活動」，邀請三人參與演講、圓桌，可以看作對三人的遲來的致敬。

AI 科技評論曾在前兩天詳細整理了 Geoffrey Hinton 在AAAI 2020上對膠囊網路理論的最新研究，在演講中他重新闡釋了膠囊理論，觀點句句深刻。詳情可參看：

Hinton AAAI2020 演講：這次終於把膠囊網路做對了

圓桌環節的主持人是機器人專家、MIT 教授 Leslie Kaelbling，她也是人工智慧領域頗負盛名的《機器學習研究雜誌》（JMLR）的創始人兼主編。

AI 科技評論把圓桌環節內容整理如下，略有改動。

1、如何看待深度學習？

Kaelbling：幾位在剛才的演講中都帶來了精彩的見解，觀眾們也已經提出了一些很有價值的問題。我對這些問題做了一些篩選和和分類，一類是技術性問題，另一類是更寬泛的關於研究和想法的問題。我們先從技術性問題開始吧。

第一個技術問題，作為電腦科學和機器學習概念的神經網路，和作為生物計算、人類大腦計算的模擬的神經網路，在你們看來有哪些聯繫？完全還原生物計算有多重要？

Hinton：生物大腦能給我們啟發、能提供建議。具體來說，它告訴我們用很多數據來調整權重，就可以讓一個系統能夠執行複雜的計算，而不需要明確的編程。這個思路其實不太尋常，如果你沒有見過這樣的例子，你會很難相信這是可行的。

LeCun：確實有明確的啟發作用，卷積網路之類的東西也是受到了神經科學中的經典研究的啟發。很多我們現在使用的技巧都可以在神經科學的計算中找到對應的東西，分割正交化（divisive normalization）都已經成了一個標準的工具了，還有神經網路、整流器（rectification）。這幾年也有很多不同地方的研究者都發現可以用聯合存儲器之類的結構增強神經網路的表現，然後我們回過頭來看看大腦，其實和海馬體很類似。雖然不是精確對應的，但幾乎可以肯定有功能上相同的地方。有一個說濫了的故事和 AI 這裡很相似，就是人類學會飛行的故事，我們從鳥的飛行獲得了啟發，但我們造的飛機可以不扇動翅膀、可以沒有羽毛；這兒也是一樣的。不過說到底，我覺得包括我們在內的很多研究者在這個領域內做研究最主要還是因為我們想了解人類的智慧。

Bengio：他們說的我都同意，我再做一點補充。我做研究的動力是，我相信只需要幾條簡單的原理就可以在很大程度上解釋大腦中的活動，我把這個叫做「驚喜的假說」。大腦中當然是存在各種奇妙的東西的，但我相信只要掌握幾條簡單的原理就可以解決這些複雜的、通用的任務。在機器學習、AI領域做研究，就可以檢驗這些原理，可以給別的研究人員提供更好的大腦運行方式的解釋。所以可以說，在發掘這些簡單原理的過程中，機器學習領域和神經科學領域會共同受益，在製造出更智慧的機器的同時，也能更好地理解大腦是如何運行的、智慧是什麼。

Kaelbling：有好幾個觀眾都認為，你們每個人都提及了表徵和推理的某些方面，而這些方面是做經典的 AI 的人很歡迎、願意使用的，比如可合成性、學習隱含表徵、稀疏性因子等等，但你們提到經典 AI 的時候又好像不是特別喜歡符號化 AI 的那一套。所以我和你們幾個人到底能不能做朋友呢？（觀眾笑）（譯註：Leslie Kaelbling 在機器人和經典 AI 方面有較多研究成果）

Hinton：我和 Leslie 可認識了很久了。上次我給 AAAI 投稿的時候，得到了這麼多年以來最低的一次評價，而且用詞很不客氣，他說「Hinton 已經研究這個想法 7 年了，根本沒有人感興趣，該試試別的了」。（觀眾笑）其實我當時的那個想法就是想用向量表示詞的含義。從這個打擊中恢復心情花了一點時間，然後現在看起來我們好像其實做對了。如今我們處於的位置是，我們可以忘掉以前的事情了，現在看看我們能不能在由很多參數組成的系統裡面做梯度下降，以及能不能推廣這個思路。其實我們發現的最重要的事情就是它，它確實有效，這很奇妙。我們現在要探索能不能用這個方法做推理。

Kaelbling：我補充幾句，雖然 AAAI 曾經，甚至可能不止一次地對你很不客氣，這肯定是不對的。我們不應該做這種推定，然後用不好的態度對待研究者。

Hinton：完全同意，我只是解釋了一下為什麼這裡存在一些惡意。

LeCun：我的觀點和 Hinton 很像。在我的 PPT 里講電腦視覺的那一頁，我也說到要用向量表示符號、用連續函數表示邏輯。之所以這樣做，是因為我們想讓推理和學習兼容。目前唯一成功的學習方法是基於梯度的學習方法，所以我們需要推理和基於梯度的學習兼容。我們需要讓它變得可微，雖然我還不是很確定具體要如何做，但我知道的是，這種想法對於對邏輯感興趣的、按原來的方式做邏輯的人來說是討人厭的，甚至是震驚的，因為這意味著需要放棄目前的研究路線中很多已有的東西。就像在 NLP 領域，幾年前 Transformer 等一批模型出現之後，很多語言學資訊就一下子變得不怎麼有用了。

Bengio：他倆差不多已經把我想說的說完了。也像我在我的演講里說的一樣，我覺得我們應該向前看，考慮如何找到最好的方式，能在發揮深度學習的長處的同時，也能解決推理、語言理解等等在經典方法里通常會用符號來解決的問題——這些問題我相信是可以用更現代的方式解決的。我覺得注意力機制可能可以起到很關鍵的作用，我也經常跟別人說我的這個觀點。

Kaelbling：你們真的覺得除了基於梯度的學習之外就沒有什麼別的、好的替代方法嗎？（觀眾笑）

LeCun：人們成功設計出來的所有學習方法都是基於某種優化問題的……

Kaelbling：（打斷）隨機森林也是嗎？

LeCun：它也算是某種優化，它是貪婪優化的。然後還有邊緣化、貝葉斯等等各種方法，有的可能值得單獨討論，但是某種程度上，所有學習方法都是基於某種優化問題的。如果還有什麼其他不一樣的方法的話，那我很樂意知道 —— 這實際上也帶來了一個問題，人類的大腦有沒有優化某個目標函數呢？

除此之外，如果你想要優化某個函數，那你要用什麼工具來優化它呢？它是零階&無梯度的，還是一階的&有梯度的，還是更高階的，我們還能用梯度，但也還需要別的工具。對零階問題做優化的效率要比一階問題低太多了，所以如果能找得到梯度，那就用梯度吧。實際上在強化學習中還有這樣的做法：因為目標函數是不可微的，所以就引入了一個評價者（critic），它的目標就是用可微的函數逼近目標函數，讓它彷彿變得可微。所以，梯度下降就是行得通啊。

Kaelbling：雖然你回答的和我問的不一樣，不過我明白你的意思了（觀眾笑）。

另一個問題，這個專場一開始我們就聊了卷積、膠囊，以及認為 Transformer 很有用，似乎可以說我們整個領域的人都在設計各種的機制，給模型增加各種結構偏倚等等。你們覺得這樣的東西可能要找到多少個，才足夠設計出人類級別的智慧？6種？60種？

Bengio：數字越小越好，但我們現在也不知道。

LeCun：對，如果只需要6種、10種結構，那當然很好了，但我們還不知道是不是真的這樣。讓我們覺得有希望的是，人類大腦皮層是有明顯的統一秩序的，但所有的大腦神經元中只有一小部分是屬於大腦皮層的，其它大多數的看起來似乎沒那麼均一、規律。

2、來自學生們的問題

Kaelbling：下面看幾個關於方法論呀、別的方面的問題吧。聽眾里有很多學生，所以有很多和學生相關的問題。很多學生問了這樣的問題：現在有很多學術研究是在大企業裡面做的，這些大企業有大量的資源，那麼當Google、Facebook這樣的企業手握大量的、學生只有眼饞的份的資源的時候，大學扮演的角色是什麼樣的呢？

Hinton：我來回答這個吧。我仍然認為，那些真正原創的想法，都來自於很好的大學院系裡、得到了好的建議的研究生們，這樣他們就不會把歷史上已有的東西重新做一遍，而是真正花好幾年時間考慮做點新的東西出來。大公司里當然也是有可能做到的，但這樣的事情大多數還是在大學裡發生的。我覺得這是大學真正的優勢。（觀眾鼓掌）

Bengio：我補充一下。AI 領域裡有很多非常難的問題，是可以考慮在「玩具問題」（譯註：專門設計的、非常簡單的環境和問題）里放大了仔細研究的。我覺得我們放棄「研究玩具問題」放棄得太早了，尤其是機器學習這裡，大家都在關注需要在 2000 個 CPU、GPU 上跑兩個星期的那種非常難的測試，但其實對於很多有意思的問題，你可以做分析，以及用正常規模的資源做實驗。我也得承認，沒有這些資源有時候會覺得很沮喪，但使用這麼多資源、能源也會帶來一些環境問題。

LeCun：所以我建議我們建立一個新的會議，The International Conference On Deep Learning On Toy Problems，「玩具問題深度學習國際會議」。（全場笑，三個人相視而笑）

Hinton：這讓我想起來一個我很多年以前提過的建議，我當時提議辦一個叫「MNIPS」的會議，所有論文的演算法都必須用 MNIST 做實驗。（一本正經地。全場笑）

Kaelbling：真棒！我繼續問和學生有關的問題。學生們很想知道他們應該讀什麼書、學習什麼內容。其實你們三位都提到了概率建模時代之前出現的一些概念，但你們覺得學生應該讀什麼學什麼呢？

Bengio：能確定的是，他們不要都讀、都學一樣的東西。

Kaelbling：這個挺重要的，這個領域不能只有一種聲音。

Hinton：我以前的一位導師的建議是「讀書會弄昏腦袋」（Reading rods the mind）。所以他說，不要讀文獻，要自己想辦法解決問題；在你有主意了以後，再去讀文獻。（觀眾鼓掌）

LeCun：我記得 Feinman 也給過類似的建議。

Kaelbling：那些大的 AI 公司做研究活動的時候，他們會找你們預約嗎？（觀眾逐漸開始笑）

（Hinton 盯著在 FB 的 LeCun 看，想讓他回答；LeCun 反過來指著在Google的 Hinton，意思是不應該你來回答么；這時候為微軟做顧問的 Bengio 先主動開口了）

Bengio：對，能幫助化石能源產業的研究是有預約的

LeCun：實際上Google和 FB 的 AI 研究機構都在逐步削減碳排放，到了今年底 FB 的就可以實現零排放，不過Google我就不清楚了。

Hinton：我覺得 LeCun 他們應該多做識別假新聞的研究，個人觀點。

Bengio：我覺得有很強 AI 能力的企業不要通過研究軍事應用來賺錢就很好。

Hinton：這一點我們三個人都同意。因為Google自己覺得不對，所以取消了一個國防部的好幾十億美元的項目，這給我留下了深刻印象，讓我覺得原來Google其實也沒有那麼壞（全場笑）。

LeCun：FB 完全不接這種單子，我們從來就沒這個問題。

3、科研工作心得

Kaelbling：下面我們聊點正常的話題。你們的想法都是從哪裡來的？如何決定要研究哪個想法？

Bengio：每天早上我一睜眼，我就有想法了。

Kaelbling：那你怎麼選擇要研究哪個？全都研究？

Bengio：系統一（System 1）（譯註：Bengio在演講中提到 System 1和 System 2，前者是直覺系統，主要負責快速、無意識、非語言的認知；後者是邏輯分析系統，是有意識、帶邏輯規劃、有語言表達能力的）。講真，就是靠直覺，然後你就不停做實驗、不停地失敗，有時候就會做出來一些成果。你要跟著自己的直覺走，做科研不就是這樣的嘛。

LeCun：我當然也很依賴直覺，不過我覺得你要能夠分析真正的、重要的問題的癥結。然後你就會有想法，在做成功實驗以後在你看來就更是更是自然而然的，起碼對你自己是這樣，世界上別的人可能還要過20年才會覺得這事一目了然；這個過程就是這樣。所以我在 1980 年代就有了多層神經網路的想法，在我看來這是自然而然的；然後我想到了卷積神經網路，我覺得也是自然而然的。然後過了很長時間它們才開始變得流行。

現在我覺得用自監督學習解決預測中的不確定性是自然而然的事情，這些是我們需要解決的重要問題。用各種方法繼續改進已有的實際系統的表現當然是有用的，但我自己對有長期影響的事情更有興趣。

Kaelbling：又有一個和前面的話題相關的問題，神經網路曾經有段時間非常不受歡迎，只有很勇敢的人才繼續研究…

Bengio：（打斷）是「頑固」，只有頑固的人才繼續研究。

Kaelbling：「頑固」，這個詞很好。假設我正在研究某個特別冷門的課題，我應該怎麼發展，別人給我寫了特別不客氣的評語、沒有人喜歡我的研究怎麼辦？

Hinton：我覺得首先要知道的是，大多數特別冷門的想法之所以特別冷門是因為它們效果並不好（全場笑）。那麼這兒有一個很巧妙的區別。所以，我也不知道。

Bengio：你要找一些證據來支援你的想法，它不能完全是直覺。依靠證據做出判斷，和完全依靠直覺，是有明顯的區別的。但你也需要有信心才能不斷前進。也許你第一次做實驗的時候失敗了，但是你做了一些變化以後就成功了。

Hinton：我覺得如果你真的對某個想法特別有信心，你就永遠都不應該放棄它。所以其實我到今天都在思考如何讓玻爾茲曼機發揮效果。（全場笑）我相信這麼一個邏輯：如果你的直覺是對的，你就應該去研究它；如果你的直覺是錯的，那你做什麼其實都影響不大。（全場笑）

4、對機器學習領域抱有憂慮

Kaelbling：我自己有一個問題，Jeff 剛才說研究生應該花很多時間考慮很難的問題。但我自己的感覺是，當前領域內發表論文的周期特別短，內容也比較短視。我很擔心這對整個領域會造成什麼樣的影響。我不知道你們是不是也有一樣的感覺？

Bengio：我覺得很不樂觀。當前這一代正在成長的電腦科學、機器學習的研究人員們，他們的視野似乎非常局限於短期的回報，做研究的目標就是為了趕上下一個會議的投稿截稿時間。我自己的學生都有的會來我辦公室問我：接下來的四個星期里我能做些什麼，因為到那個時候就截稿了。我覺得這對整個領域是很糟糕的事情，我們需要做一些結構性的改變，鼓勵研究者可以冒更大的風險、研究覆蓋更長的時間周期的問題。

LeCun：我覺得這裡有一個連續譜，研究如何在測試里拿到更高的分數，最終肯定也是有好處的，這沒什麼問題。實際上隨著這個領域發展，它也越來越偏向實際應用，因為有越來越多的人對這些實際應用感興趣——這正是他們加入這個領域的原因。我覺得真正的問題是，在電腦視覺會議、NLP會議之類的更偏重應用的會議里，研究那些長時間周期的問題的人的絕對數量和他們的影響力到底如何。我覺得我們需要留一些空間給不那麼關注刷分的會議，比如剛才隨口說的那個「玩具問題深度學習國際會議」。

即便這樣，大家也可能還是會保持一個很高的發文速度，因為當前的系統下為了找工作之類的需要他們有很多的論文。不過，這樣可以讓他們同時也能夠研究那些長期的、複雜的、有野心的問題。

Bengio：如今發表論文的壓力要比我念研究生的時候大多了，現在的學生需要在讀博期間完成的論文數量簡直太可怕了。

LeCun：我們要是想申請自己的博士生恐怕都申請不上。（觀眾笑）

Kaelbling：論文內容完整性的要求也不一樣了。

Bengio：對。實際上這裡還有一個副作用，大家覺得論文中會議是有那麼點重要的一件事，但經常發生的是，他們的論文被會議接收以後，他們又轉而研究別的課題了。

Hinton：我給這個過程打過一個比方。每個人只花很短的時間研究問題，做出一點點成果然後就發一篇論文，就像是拿來一本很難的數獨填空書，把整本書翻了個遍以後，把每個數獨題目里最簡單的幾個空都填上了，給別的人攪了個亂七八糟。（全場笑）

5、觀眾提問時間

觀眾1：研究AI就是研究科學嗎？用是或否回答。

Hinton：（複述問題給其它觀眾）答案「是」。

Bengio：人工智慧領域有很多種不同的事情可以做，有一些更偏向於工程，有一些更偏向於理解；偏向於理解的這些更像是「科學」。

LeCun：也有「工程科學」，其中的一部分是創造，你會設計一種方法；然後另一部分是科學，你會分析它為什麼有效、為什麼無效，等等。方法的創造領先於能解釋它的理論，這其實在科學技術的歷史中經常出現，一個典型的例子是蒸汽機，人們花了一百多年時間才弄明白其中的熱力學原理以及熱機的理論限制。現在我們就彷彿是創造出了蒸汽機了，然後問題就是不知道我們的「熱力學原理」在哪裡、有沒有像熱力學能解釋蒸汽機那樣的原理來解釋智慧，這也正是我自己研究的那個很大的科學問題。

觀眾2：人類有通用的智慧，而且可以創造出數學這樣的抽象的東西，我們可以寫出解析方程，比如 F=ma，或者 e=mc^2，這其中的計算非常簡單，就和二乘三等於六一樣簡單，做這樣的計算可能就只需要幾個電晶體，可能是幾瓦、幾毫瓦的能源消耗。相比之下深度學習雖然總體來說很厲害，但是需要成千上萬瓦的能源消耗。所以有沒有可能，通過某種神經架構，我們最終可以不需要這麼高的計算能力、這麼複雜、這麼高容量。

Bengio：但是產生了 F=ma 的人類大腦里有數量龐大的神經元、有很高的計算能力。如果我們想要機器也有這樣的能力，即便最終產生的結果可能是一個非常簡單的方程，它的背後也先要有很多的計算、經驗和學習。

觀眾3：看起來你們的想法似乎在很多時間上出奇地一致，比如需要的先驗的本質、自監督學習和無監督學習的價值等等。我有點好奇，除了這些觀點一致的點之外，對於這些方法應該怎麼實現、哪些元素是重要的，你們有沒有什麼意見不同的地方？

Bengio：Leslie已經嘗試過這個問題了，但是沒能讓我們吵起來。

Hinton：我可以講一個分歧。Yoshua 的電子信箱地址結尾是「quebec」（[email protected]），我覺得這之後還應該再寫一個國家碼，但他覺得不需要（觀眾笑）。（譯註：Hinton 認為魁北克既然現在還是加拿大的一部分，就應該是 mila.quebec.ca）

Kaelbling：這個環節結束了，謝謝三位嘉賓！

（三位離席，全場鼓掌）

AI 科技評論說：

三個人嚴肅認真、信念堅定，但同時又幽默平和、笑對過往的風格再一次展示了他們的大家風範；可能也正是有這樣的態度，他們才能走過之前的寒冬，迎來新時代的春風和深度學習的全面綻放。

再次向三位致敬，祝好。

深度學習三巨頭齊聚AAAI 2020，辯論現場幽默詼諧深刻恢弘，這是遲來的致敬！