DeepMind發佈最新《神經網絡中持續學習》綜述論文!

  • 2020 年 11 月 20 日
  • AI

作者 | 陳大鑫

在過去的幾十年中,人工智能研究取得了巨大進展,但是它主要依賴於固定的數據集和固定的環境。

而持續學習是一個越來越相關的研究領域,它關心人工系統如何像生物系統那樣從連續的相關數據流中持續地學習。

近日,DeepMind在Cell上發佈了13頁的《神經網絡中持續學習》綜述論文。

本文將持續學習與神經網絡的學習動力學聯繫起來,強調了其必須大大提高數據效率的潛力。

本文進一步考慮近年來出現的許多受生物學啟發的新方法,重點是利用正則化,模塊性,記憶( memory)和元學習的方法,並重點介紹一些最有前途和最有影響力的方向。

1

世界不是一成不變的

人工智能成功的一個常見基準是模仿人類學習的能力。我們測量人類識別圖像、玩遊戲和駕駛汽車的能力,然後開發可以匹配或超過給定訓練數據的機器學習模型。

然而這種範式將重點放在最終結果上,而不是學習過程上,並且忽略了人類學習的一個關鍵特徵:對不斷變化的任務和連續的經驗具有魯棒性。

人類可以以這種方式學習是不足為奇的,畢竟,時間是不可逆轉的,世界不是一成不變的,因此人類的學習已進化到在動態學習環境中蓬勃發展。

這種魯棒性與現代最強大的機器學習方法形成了鮮明的對比,後者僅在呈現經過精心shuffle,平衡和同質化的數據時才能表現良好。

這些模型不僅在有所變化的數據狀況時表現不佳,而且在某些情況下會完全失效,或因早期學習的任務而導致性能急劇下降,這被稱為災難性遺忘。

通過開發像人類一樣持續不斷學習的神經網絡模型,可以得到什麼?

持續學習技術可以使模型獲得專門的解決方案同時不丟掉以前的解決方案,從而有可能像人類一樣終身學習。

實際上,持續學習通常被認為是人類水平的人工智能的必要屬性之一。

從根本上講,通過提高學習效率以及實現相關任務之間的知識遷移,持續學習方法甚至可以在固定環境下為深度神經網絡提供巨大優勢。

2

持續學習的基礎、定義與要求

基於生物系統的持續學習基礎  

對自然界及其智能物種的研究經常與人工智能研究相交,包括持續學習。

生物學為在複雜環境中成功進行持續學習提供了存在證據,並暗示了設計方法的原則和成功方法的取捨。

有多種機制可以使生物系統適應不斷變化的環境,而不會產生遺忘。

因此,本節通過類似於其生物學等效物的方式介紹四個連續學習範式,如下圖所示:

圖1 持續學習的範式

持續學習的定義

持續學習的問題通常由順序訓練協議和解決方案預期的功能來定義。與靜態數據集或環境的通用機器學習設置相反,連續學習設置明確地專註於動態變化的環境,通常劃分為需要順序完成的一組任務。此設置可能在任務轉換(平滑或離散),任務長度和重複以及任務類型(例如無監督、監督或強化學習)方面有所不同,甚至可能沒有明確定義的任務。與課程學習比較,學習器無法控制任務的順序。

持續學習解決方案通常希望滿足許多需求,如下圖所示並在方框1中定義。

圖2 在持續學習環境中不同結果的圖示

持續學習的要求 

  • 之前任務的最小訪問。該模型沒有為以前的經驗提供無限存儲,並且至關重要的是,它無法與以前看到的任務進行交互。

  • 模型容量和計算的最小增加。該方法必須是可伸縮的:它不能為每個後續任務添加新模型。

  • 減少災難性的遺忘和干擾。對新任務的訓練不應顯着降低先前學習的任務的性能(圖2 A,C)。

  • 快速適應和恢復。該模型應該能夠快速適應新任務或領域轉移,並且在呈現過去任務時能夠快速恢復。

  • 保持可塑性。該模型應能夠在觀察到新任務時持續有效學習(圖2 B)。

  • 最大化向前和向後傳輸。學習任務應該在學習效率和績效方面都改善過去和將來的相關任務(圖2 D,E)。

  • 與任務無關的學習。該方法不應依賴已知的任務標籤或任務邊界。

3

基於梯度的解決方案

圖3 不同任務的梯度下降優化

基於梯度的持續學習方法可以理解為突觸可塑性模型的遠親。

哺乳動物的大腦在突觸級具有複雜的機制,可以防止新舊知識之間的干擾,甚至是事實和技能之間的衝突。雖然突觸可塑性已經研究了數十年,但是許多核心功能仍然難以捉摸。

基於梯度的方法的一個弱點是它們依賴於要達到的目標的近似值,這意味着一旦模型出現了很多任務或序列中的任務更加多樣化,它們就很可能失敗。

4

模塊化架構

模塊化是人工系統用來實現持續學習的另一個範式。

從進化的角度來看,在日益複雜的環境中成功的生存與神經系統的強烈分化和專一性相關並非偶然。

實際上,生物大腦是模塊化的,具有不同但相互作用的子系統(如用於記憶或運動控制)。就稀疏激活和分層組織而言,模塊化的證據已從解剖學特徵擴展到功能分離。

模塊化神經網絡體系結構是對持續學習中的干擾和災難性遺忘問題的一種自然而有效的解決方案。

模塊化也可以表現為層次結構。

理解模塊化的另一種方法是從稀疏性的角度出發,它已從壓縮和效率角度進行了廣泛的探索,它也對強化學習和控制具有適用性。

從持續學習的角度來看,稀疏表示和漸變都會導致較少的干擾和遺忘,因為將有較少的任務敏感參數或較少的有效參數更改。稀疏性也可能導致模塊的出現,而無需預定義的模塊化體系結構,我們將其視為未來研究的重要途徑。

模塊化的範式,尤其是在與稀疏約束和層次抽象結合時,提供了一種實用而強大的方法來解決持續學習的問題。

展望未來,人類級人工智能將需要具備專業能力和技能組合能力,模塊化的持續學習描述了通往兩者的道路。


5

人工學習系統的記憶

大腦中的記憶系統對人類學習是至關重要的,並且是人工神經網絡中基於記憶的持續學習的靈感來源。

儘管神經科學尚未完全描述突觸可塑性、情景記憶和語義記憶之間的複雜相互作用,但很明顯,記憶是保護人類學習和適應各種經歷的長期生命的堡壘。

借鑒生物學的啟發,本文考慮了一個更雄心勃勃的解決持續學習問題的方法:實現一個可以對知識或經驗進行編碼,存儲和回憶的神經網絡存儲器。

人工存儲器對於長期召回可能具有更大的可伸縮性,但是它帶來了額外的挑戰,即以一種跨任務的方式來設計或最好學習用於編碼,查詢和編寫信息的框架。

用於持續學習的最簡單的記憶實現通常稱為回放或排練:其想法是維持觀察的歷史,然後從該緩衝區(以及當前的觀察)中採樣學習目標,從而通過連續排練來避免災難性的遺忘以前看過的任務(圖1 D)。

在這種類別下,還有情節記憶方法,它們不同於排練方法,因為它們不僅使用回放記憶進行訓練,而且還用到了推理。

排練和情景記憶很簡單,並且在減少遺忘方面非常有效,但它們的伸縮性不好。

無論面臨什麼挑戰,記憶框架對於持續學習顯然都是有價值的,而且最普遍的端到端模型有潛力在該領域開拓新的領域,但前提是我們必須克服訓練此類系統的挑戰。

6

元學習:發現用於持續學習的歸納偏差

用於持續學習的元學習是一種方法,該方法受大腦在有限的經驗之後合成新穎解決方案的能力的激勵。

通過應用機器學習來優化學習方法本身,因此用來學習「學習」本身,元學習希望實現與生物系統所展示的那種快速、通用的適應能力。

到目前為止討論的所有解決方案都規定了手動設計的機制或體系結構,歸納偏差,以進行持續學習。
每個歸納偏見都在渴望之間產生了不同的權衡,例如,良好的知識保留與基於內存的方法中的正向轉移。值得考慮的是,是否可以通過從數據中學習解決方案而不是依靠人類的獨創性來設計解決方案,從而實現更好的折衷。
從歷史上看,許多「元學習」或「從學習到學習」的方法都表明,可以通過自動學習歸納性偏見(例如體系結構,數據和學習參數)來改善解決方案,否則這些就需要手動進行。

7

結語和未來方向

人類具有快速學習和強大概括的非凡能力,正是這種能力可以使人類在科學,藝術和工業領域取得成就,但我們並不經常提及人類在一生的教育和經驗中不斷學習的能力。

本文不僅試圖強調持續學習的重要性,而且試圖揭露現代神經網絡在這方面的局限性。通過調查,本文確定了幾種學習範式,這些範式在神經科學和生物學系統中都有很強的相似性。

基於梯度的方法直接修改了神經網絡的優化,並且已經證明可以減少災難性的遺忘。

模塊化體系結構通過技能和知識的分層重組為災難性遺忘提供了務實的解決方案。

端到端記憶模型可能是用於長時間學習的可擴展解決方案,而元學習方法可能會完全超過手工設計的算法和體系結構。 

最後,持續學習解決方案可以通過提高學習算法的長期可靠性以及開發確保從邊界的體系結構來減輕風險。



點擊閱讀原文,直達ICLR小組~