北大吳思教授：人腦的視覺識別有無窮多個解

2020 年 9 月 18 日
AI

作者 | 青暮

編輯 | 叢末

6月22日，北京智源大會舉行了認知神經基礎專題論壇，來自北京師範大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方方教授、北京師範大學心理學部的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告，共同探究認知神經科學能為AI帶來什麼啟發。

第四位報告者是北京大學計算機系的吳思教授，演講題目為《生物視覺和計算機視覺之間的對話》。

在報告中，吳思教授指出，生物的視覺識別機制和深度神經網絡的圖像識別機制有非常大的區別，生物的視覺識別涉及自上而下通路和自下而上通路的交互，而深度神經網絡只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓撲性、多解性等特點，尤其是理解圖像時會面臨數學上的無窮解問題，而這些特點或許就是深度神經網絡下一步的改進方向。

以下是演講全文，AI科技評論做了不改變原意的整理。

我的報告內容是生物視覺和計算機視覺研究的彼此影響，以此說明神經科學和人工智能研究的互動關係。這兩個領域本質上都是在解開智能的黑箱，所以兩者之間相互啟發是非常自然的事情。

深度神經網絡只模擬了部分生物視覺

深度神經網絡是近年來人工智能興起的引擎，已經非常成功，在一些大型數據集對物體的識別率甚至超過人類。但是，深度神經網絡還面臨很多問題。

第一，深度神經網絡更多是模擬了大腦視皮層中的前饋、層級結構信息處理的方式。但是大腦的視覺系統比這複雜得多，所以在很多行為上人腦和深度神經網絡有非常大的不同。在很多任務上，人的表現更加高明。

舉個簡單的例子。如下圖所示，左邊是一頭熊，熊的局部信息被去除了，只剩下輪廓，而我們人類一眼就能認出這是一頭熊。而右邊的圖則是把熊分成小塊然後打亂，只保留局部的信息，全局信息則沒有了。我們可以發現這些小塊包含熊的眼睛、嘴巴、身體，但是很難認可右邊的圖是一頭熊，深度神經網絡卻一眼認出右邊的圖是一頭熊。

通過對比可以發現，深度學習網絡的物體識別機制和人類有很大不同。人類能夠獲取物體的全局信息進行識別，而目前深度神經網絡只能利用局部信息進行識別。

無法獲取全局信息是深度學習特別是前饋神經網絡面臨的一個基本問題，這個基本問題其實很早就被意識到了。人工智能的先驅Marvin Minsky在1969年就指出，前饋神經網絡很難做拓撲性質的識別。

拓撲學是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。它只考慮物體間的位置關係而不考慮它們的形狀和大小。在拓撲學裏，重要的拓撲性質包括連通性與緊緻性。

全局信息很難用前饋網絡獲取，即使要獲取其計算複雜度也呈指數增長。拓撲信息和全局信息的獲取是深度學習網絡面臨的基本問題。

所以，我們有必要理解生物視覺系統如何獲取全局信息。神經科學領域一直有一個廣泛爭論，就是人類識別物體到底是根據全局信息還是局部信息。這兩種觀點對應的典型例子是兩種畫派，如下圖所示，左邊的畫屬於印象主義，如果只看局部的話是看不清眼睛或鼻子的，但是只要從整體進行識別就能知道這是個男人，這是從全局信息進行物體識別的例子。右邊的畫屬於立體主義，這幅畫把每個局部信息特別放大，畢加索說畫中是一位美麗少女，但是很多人都認為看不出來，因為不能用局部信息拼成整體信息，這是從局部信息進行物體識別的例子。

深度學習網絡是通過聚合局部信息逐步構建複雜信息來識別物體的，相反，在認知神經科學領域有一個理論叫「逆向層次論」，這個理論指出，人類對物體的識別是從簡單到複雜、從整體到局部。

「逆向層次論」和我們的生活經驗相一致，如果一個人在我們視野中一晃而過，你馬上會反應到這是個人，然後再識別對方的身份，這就是一種從整體到細節的識別過程。

我們從神經科學的角度來看人類視覺認知與機器學習的一個重大不同點。下圖展示了一個實驗，被試是盲視。盲視是指，意識層面「看不見」物體但卻能「感知」到物體的存在。

大量實驗表明，人類要看到或意識到物體，需要物體信息至少在視覺皮層V1中被接受到。假設V1受到損傷，就可能會產生盲視現象。這時還能感知到物體是因為皮層下通路還存在，皮層下通路是從視網膜直達上丘然後再到高級皮層的一條短路徑。

科學家利用動物實驗更好的證明了這一點。他們把老鼠放在籠子里，天花板上會呈現一個動態刺激，即一個小的光斑很快變大，這模仿了在自然環境中老鷹向老鼠俯衝下來時，老鼠視網膜接受到的光信號。這時候，老鼠本能的第一反應是裝死。科學家發現，在上丘處通過操縱神經元反應可以讓老鼠看到運動光斑後不再裝死，或者即使沒有運動光斑的出現老鼠都主動裝死。這個實驗表明本能的快速反應走皮層下通路，而沒有走深度神經網絡模擬的皮層上通路。

在上述老鼠將運動光斑當成老鷹的實驗中，老鼠根本沒有刻意去識別刺激是光斑還是老鷹，立刻裝死。這是動物的本能反應，即老鼠沒有做細節的特徵提取也能識別運動模式。

我們參考這個例子，提出了一種新算法，在識別運動模式時不做特徵提取。我們建立了一個模型，這個模型包含兩個部分，下圖左下方是外界輸入，黑色圓圈中的網絡表示「視網膜」。這裡「視網膜」的計算很簡單，它把運動模式投射到高維空間，使運動模式變成線性可分的，然後再輸入到抉擇網絡。「視網膜」的神經元特別多，相當於一個庫網絡。我們不需要訓練庫網絡和抉擇網絡，只需要訓練庫網絡和抉擇網絡之間的連接。

關於抉擇網絡，我用兩個神經元來舉例解釋一下，如下圖所示，每個抉擇神經元代表要識別的一類運動模式。這些神經元的動力學特別的慢，因為要識別運動模式，關鍵是要抓住輸入的時間結構，不僅僅是空間結構。這些抉擇神經元之間存在相互抑制，每個神經元通過庫網絡輸入收集證據，如果證據支持自己編碼的運動模式，這個神經元的反應就會抑制其它神經元的活動而最終勝出。

這個模型的計算本質是時空模式的識別，所以我們可以把這個模型推廣，用來做步態識別。在這個任務中，人在屏幕前走1-2回，然後把步態輸入到模型中，進行識別。這個模型的優點是可以小樣本訓練，只需要1-2回的數據就能馬上學會一個人的步態特點。

生物視覺是一個動態交互的過程

我們介紹一個心理物理實驗來展示由整體到局部的識別實際上是不可避免的。請大家看下圖中呈現的圖像，猜一猜是什麼。

如果你過去沒有見過這張圖的話是肯定猜不出來的，所以我把圖像的輪廓畫出來。

現在你就能看出來圖中是一頭牛。如果把牛的輪廓去掉，你還是覺得圖中是一頭牛，因為這時你大腦中已經有了自上而下的牛的先驗知識。但這只是其中一個答案。我也可以畫一隻手的輪廓，然後輪廓去掉，這時候你又會覺得圖中是一隻手，因為你有了自上而下的手的先驗知識。

我還可以在圖中畫一條魚，我相信這時候你又會覺得圖中是一條魚。

這個實驗表明人類識別物體時，大腦皮層的自上而下的信號非常重要。

這個簡單實驗揭示了圖像理解的一個深刻數學問題，即給定一副圖像，它的解釋理論上有無窮多個。注意圖像理解跟物體識別不一樣，圖像理解涉及兩個基本操作，一個是圖像分割，一個是物體識別。

但兩者的順序是一個雞生蛋或蛋生雞的難悖論：給你一幅圖像，沒有合適的分割，如何做好識別；但另一方面，如果沒有預先識別物體，又如何做合適的分割呢？從數學上來說，一幅圖像有無窮多的分割和識別的方式，所以在數學上這是一個不適定的問題。無論是人類還是AI，圖像理解時都面臨這樣的難題。

大腦解決這個問題的思路是一個「猜測與印證」的過程。當我們識別物體時，物體的圖像信息快速傳遞到高級皮層，即通過所謂的快速通路，在高級皮層做出猜測。猜測結果再通過反饋連接，和新的輸入交叉印證，如此反覆進行後，才能識別物體。

我們在日常生活中很難意識到這個過程，因為在日常生活中，很多時候只需要一兩個回合就能成功識別。但的確有的時候一個圖像看得不太清楚，我們會盯着它左看右看，大腦內部可能就進行了信息的上傳、下傳的交替，不斷地進行「猜測-印證-猜測-印證」，只要印證結果是否定的，這個過程就會一直進行下去，直到得到肯定的結果。

神經生物學充分證明人類大腦的識別機制確實如此。從解剖上來說，從高級視皮層到初級視皮層的反饋連接比前饋連接還要多，相比之下深度學習網絡主要考慮的是前饋連接。電生理實驗證據也表明，大腦對物體的識別先發生在高級視皮層，然後才發生在低級視皮層。

總的說來，生物視覺識別至少有兩條通路，快速的通路對物體整體進行識別，其結果幫助慢速通路對物體局部信息的識別。

下面以我們最近的一個工作來介紹整體識別可能如何通過反饋提高局部識別。我們考慮對物體進行識別時，先對物體大類識別，然後根據大類信息幫助進行小類識別。比如我們看到一個圖片，先識別這是動物，再識別這是貓，還可以進一步識別這是什麼品種的貓。我們發現大類信息可以通過先正後負的反饋信息幫助小類信息識別。

第一步是正反饋（Push feedback），其作用是壓制類間的噪音。假設高級腦區識別出物體是一隻貓，就告訴低級腦區不要再處理狗的信息了。這是正反饋，增強貓的信息，壓制狗的信息。第二步是負反饋（Pull feedback），其作用是壓制類內的噪音，即在貓的信息中把貓共性平均值減去，把不同貓之間的細微差別放大。

總的說來，生物視覺的識別機制和深度神經網絡的圖像識別機制有非常大的區別，生物的視覺識別涉及自上而下通路和自下而上通路的交互，而深度神經網絡只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓撲性和多解性等特點，而這或許就是深度神經網絡下一步的改進方向。認知神經科學和人工智能應該多互相對話、互相借鑒，按照過去的經驗，這樣做經常能帶來驚喜。

雷鋒網雷鋒網雷鋒網