預測處理起初看起來可能像是一種違反直覺的複雜感知機制,但科學家們一直以來非常偏向於它,因為似乎沒有其它更好的解釋。甚至在一千年前,穆斯林阿拉伯天文學家、數學家Hasan Ibn Al-Haytham在他的《光學書》中就強調了預測處理的一種形式,用來解釋視覺的各個方面。這一想法在19世紀60年代得到了有力支撐,德國物理學家兼醫生Hermann von Helmholtz認為,大腦推斷出其傳入的感知輸入的外部原因,而不是從這些輸入”自下而上”地構建其感知。
20世紀中葉的認知心理學家用這種看起來既像鴨子又像兔子的圖像來研究人類的感知Helmholtz 闡述了”無意識推理(unconscious inference)“的概念,來解釋雙穩態或多穩態感知,即一個圖像可以以不同方式被感知。例如,在一些的模稜兩可的圖像上,像上圖所展示的那樣,我們可以感知它為一隻鴨子,又可以認為它是一隻兔子,我們的感知在兩種動物圖像之間不斷轉換。Helmholtz 表示在這種情況下,由於在視網膜上形成的圖像沒有變化,所以感知必須是一個自上而下推斷感官信息原因的無意識過程的結果。在20世紀,認知心理學家們繼續提出了這樣的觀點:感知是一個主動建構的過程,它同時借鑒了自下而上的感知和自上而下的概念性輸入。Richard Langton Gregory在1980年發表了一篇非常有影響力的論文「Perceptions as Hypotheses」。該論文中,作者認為感知錯覺本質上是大腦對感官印象原因的錯誤猜測。同時,計算機視覺科學家們在努力使用自下而上的重建,使計算機在沒有內部 “生成 “模型參考的情況下進行觀察。儘管預測處理的接受度在不斷提高,但是,關於它是如何在大腦中實現的這一問題仍然存在。流行的一種被稱為預測編碼的模型,認為大腦中的信息處理水平是有層次的。最高級代表最抽象、最高級的知識,例如,對前方陰影中的蛇的感知。該層通過向下發送信號來預測下一層的神經活動。下層將其實際活動與上面的預測進行比較。如果存在不匹配,該層會生成一個向上流動的錯誤信號,以便更高層可以更新其內部表徵。這個過程同時發生在每一對連續層,一直到接收實際感知輸入的最底層。從外界接收到信息和預期結果之間的任何差異都會導致一個錯誤信號,並在層次結構上產生漣漪。然後最高層最終更新了它的假設,那不是一條蛇,只是地上的一根捲曲的繩子。“一般來說,預測性編碼的原理是大腦基本有兩個神經元群體,特別是當它應用於大腦皮層時,一個編碼關於正在感知的東西的當前最佳預測,另一個是該預測的錯誤信號”de Lange 說。1999年,計算機科學家 Rajesh Rao和Dana Ballard 分別在索爾克生物研究所和羅切斯特大學建立了一個強大的預測編碼計算模型,其中有明確用於預測和糾錯的神經元。他們對靈長類動物大腦視覺處理系統中的部分路徑進行了建模,該路徑由負責識別面部和物體的分層組織區域組成。他們的研究表明,該模型可以重現靈長類動物視覺系統的一些不尋常行為。然而,這項工作是在現代深度神經網絡出現之前完成的。而深度神經網絡有一個輸入層、一個輸出層和夾在兩者之間的多個隱藏層。到2012年,神經科學家們開始使用深度神經網絡來模擬靈長類動物的腹側視覺流。但幾乎所有這些模型都是前饋網絡,其中信息只從輸入流向輸出。”大腦顯然不是一個純粹的前饋機器,”de Lange說,”大腦中有很多反饋,和前饋信號一樣多”。因此,神經科學家們轉而研究另一種類型的模型——遞歸神經網絡(RNN)。紐約西奈山伊坎醫學院的計算神經科學家和助理教授Kanaka Rajan表示:這些模型的特點使它們成為模擬大腦的 “理想基質”,他的實驗室使用RNNs來理解大腦功能。RNNs的神經元之間既有前饋連接,也有反饋連接,它們持續不斷地活動,這與輸入無關。Rajan說:”這種長時間產生這些動態的能力幾乎是永久性的,然後使這些網絡能夠接受訓練。”
2 預測是為了節能
RNNs引起了William Lotter 和他在哈佛大學的博士論文導師 David Cox 以及Gabriel Kreiman的注意。2016年,該團隊構建了PredNet,這是一個遞歸神經網絡,其架構設計用於執行預測編碼。該團隊按照預測編碼的原則將RNN設計成一個由四層組成的層次結構,每一層都預測它從下面一層預測到的輸入,如果出現不匹配,則向上發送一個錯誤信號。
William Lotter然後,他們在汽車攝像拍攝的城市街道視頻上訓練該網絡。PredNet學會了連續預測視頻中的下一幀。”我們起初不確定它是否真的能工作,後來嘗試了一下,發現它確實在進行預測。這非常酷”Lotter說。下一階段是將PredNet與神經科學聯繫起來。去年在《Nature Machine Intelligence》雜誌上, Lotter及其團隊在報告中說:PredNet展示了在猴子大腦中看到的對意外刺激的反應行為,包括在簡單前饋網絡中難以複製的一些行為。Kietzmann認為PredNet是一項非常了不起的工作。但是他與 Marcel van Gerven以及他們的團隊所追求的是更根本性的東西:無論是Rao和Ballard模型,還是PredNet,都納入了用於預測和糾錯的人工神經元,以及導致正確的自上而下預測抑制錯誤神經元的機制。但如果這些都沒有明確規定呢?Kietzmann表示很想知道是否真的需要這些架構來約束,或者是否可以用一種更簡單的方法來解決這一問題。一個想法突然浮現在Kietzmann和van Gerven的腦海中:神經通訊是有能量成本的(大腦是人體中能量最密集的器官)。因此,為了保存能量,生物體內任何進化的神經網絡的行為可能都會受到限制。研究人員決定觀察是否有任何預測編碼的計算機制可能出現在 RNN 中,這些 RNN 必須使用儘可能少的能量來完成任務。他們認為,他們網絡中的人工神經元之間的連接強度(也被稱為權重),可以作為突觸傳輸的代理,這也正是在生物神經元中需要消耗大部分能量的原因。Kietzmann說:”如果你減少人工神經元之間的權重,這意味着你用更少的能量進行交流。我們把這看作是最大限度地減少突觸傳輸。”