今年的海德堡論壇,Raj Reddy、Sanjeev Arora、LeCun 與 Bengio 都講了些什麼?
- 2022 年 11 月 14 日
- AI
作者 | AI 科技評論
編輯 | 陳彩嫻
隨着算力的日益提高和研究的不斷積累,深度學習的發展已經走嚮應用,給各行各業帶來了深刻的影響。如何從模型的設計和部署兩方面讓 AI 更加向善,這是構建深度學習工具和使用工具的人都需要考慮的問題。
在這樣的背景下,三位圖靈獎獲得者 Raj Reddy、Yoshua Bengio、Yann LeCun 和 2011 年 ACM 計算獎得主 Sanjeev Arora,以及多位學者,在今年九月舉辦的第九屆海德堡獲獎者論壇上帶來了一場關於深度學習的應用與影響的討論。
Yann LeCun:我覺得有一個很籠統的定義,即通過組裝那些函數沒有被完全定義的組塊來組裝一個機器,然後通過使用梯度下降最小化某種目標函數來解決這些函數。
這個籠統的定義適用於很多情況,不僅僅是神經網絡,並且可能還與上世紀 50 年代的單一處理(single processing)和模式識別有共通之處。
這些年來,深度學習的概念已經有所演變,也的確有人提議重新予以命名。可微分編程(differentiable programming)這個概念可以被泛化地理解為深度學習,其含義是編寫一個程序,其中函數調用不被完全定義,而是在訓練中加以調整。
Sanjeev Arora:我以前研究算法和計算複雜性,大約在 2011 年,就在深度學習爆發的前一年,我轉向了機器學習。
LeCun 剛才談到的範式是,你有一個成本函數(cost fucntion),並在過程中加以調整,這就是深度學習。問題是,成本函數並不能真正確定神經網絡所做的事情,從相同的成本函數中,你也可以獲得其他很多東西。所以這種範式並不總是受到認可。現在它在理論上已經被證明了,其實是算法的隱式偏差。
目前我們還不清楚最底層發生了什麼,所以我認為,如果僅使用成本函數來推理深度網絡,可能是錯誤的,我們需要更多地了解黑箱內部所發生的事情。理想情況下,我們為此需要一個更廣泛的關於訓練算法的隱式偏見的理論。因為訓練算法、架構和成本函數組合在一起,才帶來了我們所看到的結果。我們並未掌握完整的理論,但這種理論是十分重要的,因為當前我們使用深度學習的主要方式是在無標籤數據的情況下訓練模型,然後泛化到其他任務。這種方式不適用於任何現有的理論框架。所以我們必須真正深入黑箱。
Shakir Mohamed:我們有兩種理解機器學習的方式。一種是關於使用訓練、算法、架構和成本函數;另一種是將機器學習理解為創建一個模型。模型是一種描述世界的方式,包括數據是如何生成的、我們如何觀察數據、我們期望看到什麼樣的預測,這種方式我稱之為「推理」(inference)。
如何將數據轉化為更新參數的方式?對於任何推理方法,研究統計或概率的人通常使用的一種方法是最大似然。對於我們所使用的任何一種模型結構,都可得到一種算法。深度學習的魔力在於基於組合性、遞歸性、架構深度、特定類型的損失函數、梯度下降算法,對特定類型的模型進行特定的選擇。
所以我認為,那些對概率感興趣、做推理思考的人應該把分解作為其分析工具,即對於以下問題做分解:你正在建立的是什麼模型?為什麼要建立這個模型?將數據轉化為見解的推理過程是什麼?你實際使用的算法是什麼?
對於所有這些問題中的每一個,你都可以將其視為一個對象,對其做分析、做理論研究或是實證檢驗。或者你也可以將其放在一起研究。
我認為這種模型非常有用,它將機器學習理解為一個廣泛的領域。機器學習並不僅僅是獲取數據、跑代碼、使用 scikit-learn、做一些預測,要關心我們真正在做的是什麼。
Yoshua Bengio:我非常同意 Shakir 和 Sanjeev 的觀點。我想強調的是,我們需要對我們在各種深度學習實現和架構中投入的歸納偏差有更多有意識的理解。理想情況下,在設計階段,我們應當考慮函數或分佈空間中的偏好是什麼,並將這些偏好引入到目標函數之外的學習中。這對設計下一代深度學習系統也有意義。
深度學習經常被吐槽的一個點是它的推理能力。有一種觀點認為,深度學習不能像人類那樣做真正的推理,因為人類使用的是大腦中的某些神經網絡。我同意,但我相信,可以通過引入歸納偏差,將結構融入這些架構和對象中,從而引發類似於人類的推理。
提問:我從事自動駕駛系統和自動駕駛汽車方面的工作,我有兩個問題,一是機器學習技術的可轉化性,另一個問題是如何把由感知系統產生的具體知識與符號知識聯繫起來?自動駕駛汽車如何避免感知系統錯誤,比如變化的交通燈。這不會發生在人類身上,人有常識,有一個外部世界的模型可以將感官信息與符號知識聯繫起來。
Yann LeCun:我回答第二個問題。將原始數據、感官數據轉換為符號表示或者符號類別或序列。這就是深度學習擅長的。但它仍然不完美,因為它可能非常脆弱,因為通常如果它通過監督運行的訓練,它將被訓練用於特定任務。而就在這個任務之外,它不會工作得特別好。
我們還不太清楚我們是如何讓深度學習系統做推理的,目前有很多研究,實際上我寫了一篇關於觀點論文,幾個月前放在了網上,試圖解決讓推理與深度學習相兼容的問題。

因為深度學習是一種非常強大的技術,我們需要讓機器去學習世界模型並獲得常識。
Yoshua Bengio:我確實認為有可能將符號知識與我們從數據中提取的知識聯繫起來,例如設計不同的架構,並且將推理作為其中的重要組成部分。
深度神經網絡的競爭力在於,我們將多個層和模塊組合起來,並開始有了注意力機制,但還需要更多動態組合,正確的知識或者是高級知識,甚至是符號知識需要被組合起來去做推理,這是未來我們利用注意力機制的一種路徑,不過這仍是一個非常開放的問題。
Sanjeev Arora:Yoshua 你談到了自治系統,好像這些系統是在許多時間段或在無限的時間裏運行,但我們還不清楚是否對系統的決策做出持續性的解釋,因為它是一個動態程序。而人類擁有解釋這些決策的所有捷徑,誰知道這些捷徑是否有用?
Yoshua Bengio:你在不同的國家只能靠左行駛或靠右行駛,我們可以對符號規則做類似的處理。
Sanjeev Arora:是的,但還有一個問題是,當你說到動態決策時,並沒有簡潔的解釋來理解為什麼它是正確的。
Been Kim:以某種方式將符號邏輯與深度學習架構相結合,對於解釋能力和可解釋性方面的研究非常有用。但我認為,我們有一個錯誤的假設,即在我們的世界中,存在於人類身上的符號足以理解複雜的自動駕駛汽車和其他複雜系統。在這種假設下,問題就變成了如果我們要將這個複雜的神經網絡正在做的事近似為對我們有意義的符號,這種近似是否足夠好?我們如何判斷它何時不夠好?為什麼會失敗?如果失敗了,它會告訴我們如何修復嗎?我認為這是一個非常重要的問題。
提問:請問 Bengio 教授,您提到了推理和歸納偏差的必要性,我個人更多是在適應不同模態的空間中處理歸納偏差,我想知道您在這方面是怎麼做的。
Yoshua Bengio:我們在人類推理中看到的一些歸納偏差涵蓋了這樣一個事實:當我們在高層次上進行推理時,我們在建立概念之間的因果關係、概念之間的關係,並形成一個非常稀疏的圖(graph)。如果我丟下一個球,它就會落在地面上,像這樣非常準確的預測是在高層次上的,涉及的變量很少,這就跟你在像素級別上能夠執行的操作非常不同。
此外,在這個高層次上,我們重複使用這些概念和組件來形成新的序列、新的意義,我們還不知道如何做好重用動態和重組,但我們可以將這種歸納偏差設計到神經網絡中。
人類高層次理解的另一個方面是因果關係,因果關係在分佈泛化和我們關於意圖的思考方面起作用,意圖也就是人類想要做的事情以及在高層次上與干預相關的行為,所以這跟強化學習有很多關聯。我們還需要做更多的工作,去將歸納偏差它們整合到架構和訓練對象中。
人類擅長推論和推理,但我們並不是完美的推理機器,理解我們失敗的推理模式也很重要。我們或許可以從生物學中獲取線索,幫助我們探索如何將這些歸納偏差引入神經網絡。
提問:自成立以來,ICLR 的開放式同行評審方法都非常特殊,這對於 AI 領域學術研究發展是否產生了影響?ICLR 最早的大會主席 Yoshua 和 Yann 都在這裡,我們先從 Yann 開始。
Yann LeCun:2000 年底到 2010 年初,當時人們謹慎地討論該怎麼正確地進行同行評審,計算機科學會議的同行評審頗有些隨機,但這不能怪罪於執行同行評審的人,因為這就是它的本質,而且這個領域的快速發展也決定了這一點,大多數人在領域內的經驗都是有限的,所以大多數審稿人有時會是博士生,有時是碩士生。他們更多是要找出一篇論文的缺點而非優點,而且不得不拒絕很多論文,我們很多人都為此感到內疚。
我跟 Yoshua 已經討論了幾次,論文或預印本與在出版機構或評審機構之間的壟斷關係已經被打破,所以任何評審機構,無論是會議還是期刊,都可以評審任何論文,並且任何論文也都可以請求評審機構進行評審。如果您想要獲取見解和評論,同行評審就像是一個開放的市場,準確度、預測性或信譽度,對評審機構都有提升作用。
我在我的網站上寫了一篇關於這個的文章,並在馬薩諸塞大學阿默斯特分校和 David McCallum 討論,他正在做 OpenReview 的工作,OpenReview 相當於是一個實施同行評審的基礎設施。
根據pin實體的準確度或預測性,或者類似的東西或它們的信譽度來提升審查實體。所以我在我的網站上寫了一篇關於這個的文章,然後開始和大衛麥卡勒姆討論你。U mass,amherst,因為它正在開展公開審查,公開審查基本上是可用於實施這些想法的基礎設施。
2013 年,我們停止了運行了十年的 wrokshop,並開始啟動 ICLR。我們詢問 OpenReview 我們能不能實施同行評審系統,實際上並不可能實施整個系統,但我們取得了一些成功。
重要的是,評審是開放的,所以評審人會寫評論,並被所有人看到,提交的論文也是所有人可見。這不是雙盲,而是單盲,官方審稿人是匿名的,但是任何人都可以選擇在自己的名下為所有論文寫評論。
有一位對這個過程感興趣的社會心理學家進行了一項調查,比如詢問人們與經典模式相比會更喜歡這種模式嗎?他們都回答是的,這個結論非常明確。
但最終當其他人組織 ICLR 時,我們並不能去告訴程序委員會該如何組織會議,因為他們是志願的角色。所以評審過程又逐漸地越來越接近於更傳統的模式,除了 OpenReview 得以保留。
而現在,其他會議也都轉換到這種模式,包括 NeurIPs 和 ICML,我認為這是一個進步。在開放性的另一個方面,我認為 Yoshua 和我對激發 AI 社區研究的的快速發表產生了重大影響。有這樣一句話:早發表,多發表。論文可能有錯誤,但是沒關係,有機會糾正。
提問:Yoshua,結合你在 ICLR 的經驗,對於那些除了自己的研究之外還參與組織工作的年輕研究人員,你有什麼要做和不要做的建議?
Yoshua Bengio:我先就 Yann 的回答再補充一些背景。機器學習研究者社區幾十年來在開放科學和開放出版方面一直是積極分子,我和 Yann 一直在推動 ICLR。
在 1999 年左右,《機器學習期刊》(Machine Learning Journal)的委員會發生了一場小革命,委員會成員和研究者包括我自己在內都在推動更多的開放獲取,但是談判並沒有成功,委員會的很大一部分成員離開了。我們創辦了現在機器學習旗艦期刊——The Journal of Machine Learning Research (JMLR),是社區管理的非營利組織。
有時科學上的需要和科學家尋求的真理價值觀以及為社會做一些積極的事情,並不總是與利潤最大化相一致。我認為有理想的年輕人,例如發起 Climate Change AI (CCAI) 的小組,在會議上申請組織研討會,通常是年輕人新群體將精力投入到這些事情中。有時他們可以自己創辦一個會議,要做到這一點需要付出工作和努力,需要召集一大批關心這個話題的人。
Yann LeCun:谷歌學術顯示,自 2013 年以來,ICLR 在所有出版機構影響力排名中已經位列第七位,領先於 PNAS,這是非常了不起的,這要歸功於完全開放的評審過程。
提問:現在模型越來越大、越來越複雜,而大模型會消耗更多的能量和資源。隨着時間的推移,這會導致氣候越來越糟糕,而且模型似乎不會停止變大。在嘗試構建更高效的模型時,是否有任何工具、程序或其他措施來防止這種情況發生呢?
Sanjeev Arora:我們可以從訓練和部署兩方面來看,在部署階段,我們可以使模型更加緊湊,但在訓練方面,我們確實傾向於把模型做得越來越大。
Yann LeCun:其實分三類,有研究培訓、生產培訓以及部署。部署是迄今為止最大的能源消耗源。有一篇非常有趣的論文,是谷歌的員工做出了某種預測,預測關於在谷歌這樣的在線服務中花費在 AI 上的能源與其他所有能源的比例是多少。事實上比例不是很大。所以能源消耗的數字正在變大,但它變大的速度不是很快。目前,這個數字大概是 15 – 20%,而且不會超出這個範圍,因為受到了經濟的限制,而且所有那些大公司都在能源上花費了大量的錢,這意味着他們有巨大的動力去節省能源。
Been Kim:蒸餾是一個可以關注的關鍵詞。蒸餾可以將複雜網絡變得更小、更易於理解、更稀疏。稀疏網絡也是一個值得關注的關鍵詞。而且我還想補充一下,在製作、部署模型的時候,在像谷歌這樣的公司中,簡化模型這一點是非常重要的。因為模型越複雜就越難維護,更難理解,即便對我們來說也很難。因此,我們一直在努力把模型做得更好、更簡單。
Yann LeCun:有非常龐大的工程師團隊投入所有精力去做這個工作,他們的努力使得部署中的推理更加高效。
提問:有一個相關的問題是,我們如何確保有相關的激勵措施使人工智能的進步能夠直接解決氣候危機方面的問題?
Shannon Vallor:我認為有必要考慮一下,當我們還不能將 AI 用於所有事情的時候,我們要使用 AI 來優先解決什麼問題?氣候危機的加速速度比預期的要快,影響正變得比預期的更嚴重。所以我認為我們需要確保對人工智能應用和部署的投資激勵與應對氣候危機的需要相稱 。
Yann LeCun:谷歌 Alphabet 和我在使用人工智能應對氣候變化方面有合作過一些項目。例如我們做了一個開放式協作項目,其想法是使用人工智能來找出有效地將氫與氧從水中分離出來的方法。
只要能有效地大規模儲存能量,我們就有了應對氣候變化的解決方案。我們可以用太陽能電池板覆蓋一個小沙漠,用水產出氫氣後,將能量以甲烷的形式運送到需要的地方。從此我們將不再需要化石燃料。該項目僅活躍了大約一年,但它是一個任何人都可以參與的開放項目。我認為人工智能在材料科學和化學中的應用非常有前景。
Yoshua Bengio:我們的確採取了某些措施,但正如 Shannon 所說,這些措施還不夠。要解決這個問題的話,必須要由政府來推出政策。能夠解決這個問題的不是個人,甚至不是個別公司,而是政府。只有政府能在地球的層面上用最理想的方式做到。我們需要鼓勵政府。而且這麼做不僅僅是因為氣候,我在傳染病、醫療等領域也遇到過類似的問題。
視頻鏈接://www.youtube.com/watch?v=dyOxLRr_Zbs

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標註來源並插入本公眾號名片。
雷峰網