為提高能量利用效率,大腦練就了預測感知能力

  • 2021 年 11 月 23 日
  • AI
「試圖在沒有生成模型的情況下來理解數據是註定要失敗的,人們所能做的只是對數據中的模式進行陳述。」
編譯 | 王
編輯 | 青暮
我們的大腦是一個包裹在顱骨中重達三磅的組織塊,它是如何從感覺中創造出感知的?這一直以來都是個謎。
數十年來,有大量的研究和證據表明,大腦不可能只是簡單地像拼湊拼圖一樣感官資訊將感官資訊組織在一起,來感知周圍的環境。即使傳入的資訊雜亂無章、模糊不清,大腦依舊可以根據進入眼睛的光線構建一個場景,這一事實恰巧證明了上述觀點。
因此,越來越多的神經科學家開始將大腦視為 “預測機器”。通過預測處理,大腦利用其對世界的先驗知識來推斷或產生假設,來解釋傳入感官資訊的原因。這些假設在我們的腦海中產生了感知,並不是感官輸入本身產生的感知。輸入的感官資訊越模糊,對先驗知識的依賴性就越強。
荷蘭拉德堡大學預測性大腦實驗室的神經科學家 Floris de Lange表示,預測性處理框架的魅力在於它有一種非常強大的能力可以解釋不同系統中許多不同的現象。
然而,越來越多的神經科學證據表明,支援這一觀點的想法主要是間接的,並且可以有其它替代解釋。 
拉德堡大學的Tim Kietzmann 致力於研究機器學習和神經科學的跨學科領域,他表示:”如果你研究人類的認知神經科學和神經成像,將會有很多證據,但這些證據都是非常含蓄的、間接的。”
因此,研究人員開始試圖通過計算模型來理解和測試預測性大腦的想法。計算神經科學家通過研究生物神經元的行為,建立了人工神經網路,可以學習對輸入資訊進行預測。這些模型可以近似模模擬實大腦的能力。用這些模型進行的一些實驗甚至暗示:大腦必須要進化成預測機器才可以滿足能量限制。
隨著計算模型的增加,研究活體動物的神經科學家們也越來越相信大腦會學習推斷感官輸入的原因。雖然關於大腦如何做到這一點的具體準確的細節仍然模糊不清,但大體的情況變得越來越清晰。


1

感知中的無意識推理

預測處理起初看起來可能像是一種違反直覺的複雜感知機制,但科學家們一直以來非常偏向於它,因為似乎沒有其它更好的解釋。甚至在一千年前,穆斯林阿拉伯天文學家、數學家Hasan Ibn Al-Haytham在他的《光學書》中就強調了預測處理的一種形式,用來解釋視覺的各個方面。這一想法在19世紀60年代得到了有力支撐,德國物理學家兼醫生Hermann von Helmholtz認為,大腦推斷出其傳入的感知輸入的外部原因,而不是從這些輸入”自下而上”地構建其感知。

20世紀中葉的認知心理學家用這種看起來既像鴨子又像兔子的影像來研究人類的感知
Helmholtz 闡述了”無意識推理(unconscious inference)“的概念,來解釋雙穩態或多穩態感知,即一個影像可以以不同方式被感知。例如,在一些的模稜兩可的影像上,像上圖所展示的那樣,我們可以感知它為一隻鴨子,又可以認為它是一隻兔子,我們的感知在兩種動物影像之間不斷轉換。Helmholtz 表示在這種情況下,由於在視網膜上形成的影像沒有變化,所以感知必須是一個自上而下推斷感官資訊原因的無意識過程的結果。
在20世紀,認知心理學家們繼續提出了這樣的觀點:感知是一個主動建構的過程,它同時借鑒了自下而上的感知和自上而下的概念性輸入。
Richard Langton Gregory在1980年發表了一篇非常有影響力的論文「Perceptions as Hypotheses」。該論文中,作者認為感知錯覺本質上是大腦對感官印象原因的錯誤猜測。同時,電腦視覺科學家們在努力使用自下而上的重建,使電腦在沒有內部 “生成 “模型參考的情況下進行觀察。
儘管預測處理的接受度在不斷提高,但是,關於它是如何在大腦中實現的這一問題仍然存在。流行的一種被稱為預測編碼的模型,認為大腦中的資訊處理水平是有層次的。最高級代表最抽象、最高級的知識,例如,對前方陰影中的蛇的感知。該層通過向下發送訊號來預測下一層的神經活動。下層將其實際活動與上面的預測進行比較。如果存在不匹配,該層會生成一個向上流動的錯誤訊號,以便更高層可以更新其內部表徵。
這個過程同時發生在每一對連續層,一直到接收實際感知輸入的最底層。從外界接收到資訊和預期結果之間的任何差異都會導致一個錯誤訊號,並在層次結構上產生漣漪。然後最高層最終更新了它的假設,那不是一條蛇,只是地上的一根捲曲的繩子。
“一般來說,預測性編碼的原理是大腦基本有兩個神經元群體,特別是當它應用於大腦皮層時,一個編碼關於正在感知的東西的當前最佳預測,另一個是該預測的錯誤訊號”de Lange 說。
1999年,電腦科學家 Rajesh Rao和Dana Ballard 分別在索爾克生物研究所和羅切斯特大學建立了一個強大的預測編碼計算模型,其中有明確用於預測和糾錯的神經元。他們對靈長類動物大腦視覺處理系統中的部分路徑進行了建模,該路徑由負責識別面部和物體的分層組織區域組成。他們的研究表明,該模型可以重現靈長類動物視覺系統的一些不尋常行為。
然而,這項工作是在現代深度神經網路出現之前完成的。而深度神經網路有一個輸入層、一個輸出層和夾在兩者之間的多個隱藏層。到2012年,神經科學家們開始使用深度神經網路來模擬靈長類動物的腹側視覺流。但幾乎所有這些模型都是前饋網路,其中資訊只從輸入流向輸出。”大腦顯然不是一個純粹的前饋機器,”de Lange說,”大腦中有很多回饋,和前饋訊號一樣多”。
因此,神經科學家們轉而研究另一種類型的模型——遞歸神經網路(RNN)。紐約西奈山伊坎醫學院的計算神經科學家和助理教授Kanaka Rajan表示:這些模型的特點使它們成為模擬大腦的 “理想基質”,他的實驗室使用RNNs來理解大腦功能。RNNs的神經元之間既有前饋連接,也有回饋連接,它們持續不斷地活動,這與輸入無關。Rajan說:”這種長時間產生這些動態的能力幾乎是永久性的,然後使這些網路能夠接受訓練。”


2

預測是為了節能

RNNs引起了William Lotter 和他在哈佛大學的博士論文導師 David Cox 以及Gabriel Kreiman的注意。
2016年,該團隊構建了PredNet,這是一個遞歸神經網路,其架構設計用於執行預測編碼。該團隊按照預測編碼的原則將RNN設計成一個由四層組成的層次結構,每一層都預測它從下面一層預測到的輸入,如果出現不匹配,則向上發送一個錯誤訊號。

William Lotter
然後,他們在汽車攝像拍攝的城市街道影片上訓練該網路。PredNet學會了連續預測影片中的下一幀。”我們起初不確定它是否真的能工作,後來嘗試了一下,發現它確實在進行預測。這非常酷”Lotter說。
下一階段是將PredNet與神經科學聯繫起來。去年在《Nature Machine Intelligence》雜誌上, Lotter及其團隊在報告中說:PredNet展示了在猴子大腦中看到的對意外刺激的反應行為,包括在簡單前饋網路中難以複製的一些行為。
Kietzmann認為PredNet是一項非常了不起的工作。但是他與 Marcel van Gerven以及他們的團隊所追求的是更根本性的東西:無論是Rao和Ballard模型,還是PredNet,都納入了用於預測和糾錯的人工神經元,以及導致正確的自上而下預測抑制錯誤神經元的機制。但如果這些都沒有明確規定呢?Kietzmann表示很想知道是否真的需要這些架構來約束,或者是否可以用一種更簡單的方法來解決這一問題。
一個想法突然浮現在Kietzmann和van Gerven的腦海中:神經通訊是有能量成本的(大腦是人體中能量最密集的器官)。因此,為了保存能量,生物體內任何進化的神經網路的行為可能都會受到限制。
研究人員決定觀察是否有任何預測編碼的電腦制可能出現在 RNN 中,這些 RNN 必須使用儘可能少的能量來完成任務。他們認為,他們網路中的人工神經元之間的連接強度(也被稱為權重),可以作為突觸傳輸的代理,這也正是在生物神經元中需要消耗大部分能量的原因。Kietzmann說:”如果你減少人工神經元之間的權重,這意味著你用更少的能量進行交流。我們把這看作是最大限度地減少突觸傳輸。”

當PredNet這個具有預測編碼架構的神經網路,被呈現在影片序列中的幀(上圖),它學會了預測它們(下圖)。
然後,該團隊在多個連續數字序列上以升序、環繞順序訓練 RNN:1234567890,3456789012,6789012345等。每個數字都以28×28像素的影像形式顯示給網路。RNN學會了一個內部模型,可以從序列中的任何隨機位置開始預測下一個數字。但該網路被迫用單元之間儘可能少的權重來做這件事,類似於生物神經系統中的低水平神經活動。
在這些條件下,RNN學會了預測序列中的下一個數字。其中一些人工神經元充當 “預測單元”,代表預期輸入的模型。其他神經元作為 “錯誤單元”,在預測單元尚未學會正確預測下一個數字時最為活躍。當預測單元開始變得正確時,這些錯誤單元就變得「低調」了。值得一提的是,該網路之所以採用這種架構,是因為它必須要盡量減少能量的使用。Kietzmann說:”它只是學會了做人們通常明確地建立在系統中的那種抑制,我們的系統開啟即用,作為一個突發事件來做,以達到節能的目的。”
將能量使用降到最低的神經網路最終會實施某種預測性處理,這證明生物大腦可能也在做同樣的事情。
Rajan稱Kietzmann的工作是一個 “非常巧妙的例子,說明了像能量最小化這樣的自上而下的限制是如何間接地導致像預測編碼這樣的特定功能的”。這促使她思考RNN中特定錯誤和預測單元的出現是否可能是一個意外,是否只有網路邊緣的神經元在接收輸入。如果輸入分布在整個網路中,”我下意識的猜測是,雖然你不會發現錯誤單元和預測單元之間的分離,但你仍然會發現預測活動”她說。


3

腦行為的統一框架

儘管這些來自計算研究的見解看起來很有說服力,但最終只有來自活體大腦的證據才能說服神經科學家相信大腦中的預測處理。為此,麥吉爾大學和魁北克人工智慧研究所Mila的神經科學家和電腦科學家 Blake Richards和他的同事們制定了一些明確的假設,來說明他們應該在學習對意外事件進行預測的大腦中看到的事物。
「大腦中的錐體神經元似乎在解剖學上適合預測性處理,因為它們可以分別整合來自鄰近神經元的自下而上的訊號和來自更遠處的自上而下的訊號。」
——selvanegra
為了驗證他們的假設,他們同西雅圖艾倫腦科學研究所的研究人員對小鼠進行了實驗,同時監測其大腦中的神經活動。特別令人感興趣的是,大腦新皮質中的某些錐體神經元從解剖學上來說適合預測處理。它們既能通過對其細胞體的輸入接收來自附近神經元的局部自下而上的感覺訊號,又能通過其頂端樹突接收來自更遠的神經元的自上而下的預測訊號。
小鼠看到了許多Gabor斑塊的序列,這些斑塊由光和暗的條紋組成。小鼠們也開始期待每個序列中的所有四個斑點的方向大致相同。然後,研究人員意想不到地的突然將第四個Gabor修補程式隨機旋轉到不同的方向。動物們起初很驚訝,但隨著時間的推移,它們也開始期待這種驚喜。在這期間,研究人員一直在觀察小鼠大腦中的活動。
他們觀察到,許多神經元對預期和意外的刺激有不同的反應。重要的是,在測試的第一天,這種差異在局部的、自下而上的訊號中很強烈,但在第二天和第三天就減弱了。在預測處理的背景下,由於刺激不那麼強烈了,新形成的自上而下的期望開始抑制對傳入的感覺資訊的反應。
與此同時,頂端樹突的情況則相反。它們對意外刺激的反應的差異隨著時間的推移而增加。神經迴路似乎正在學習更好地表示令人驚訝事件的特性,以便在下一次做出更好的預測。
“這項研究為類似預測性學習或預測性編碼的東西正在新皮層中發生的想法提供了進一步的支援,”Richards說。
誠然,對神經元活動或動物行為的個別觀察有時可以用大腦的一些其它模型來解釋。例如,神經元對同一輸入的反應減弱,而不是被解釋為錯誤單元的抑制,可能只是由於適應過程。但是,”你會得到這整個『電話簿』中對不同現象的解釋,”de Lange說。
另一方面,預測處理提供了一個統一的框架,可以一次性解釋許多現象,因此它作為一種大腦工作原理的理論具有吸引力。“我認為目前的證據是相當有說服力的,”Richards說,”實際上,我願意在這個說法上投入大量資金。”
原文鏈接://www.quantamagazine.org/to-be-energy-efficient-brains-predict-their-perceptions-20211115/

雷峰網