北師大畢彥超:AI和人類感知的相同點和不同點
- 2020 年 9 月 18 日
- AI
編輯 | 叢 末
那麼,人工智能發展到最後真的會變得和生物大腦完全一樣嗎?不一定,因為兩者服務於不同的目的。人工智能要實現的是具有專用功能的機器,而生物智能要實現的是能適應大自然環境的有機體。
但是生物大腦是億萬年進化的產物,所以它在進化過程中已經摸索出極佳的信息處理的架構和算法,這些架構和算法可以為發展人工智能帶來啟發。
所以從原則上來說,兩者存在交集,但並沒有包含關係。
在北京智源大會舉行的「認知神經基礎」專題論壇,來自北京師範大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方方教授、北京師範大學心理學部的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告,共同探究認知神經科學能為AI帶來什麼啟發。
畢彥超教授做了《人類大腦的知識表徵》的報告。畢彥超教授在哈佛大學獲得心理學(認知、腦、行為)博士學位,在人腦實現語義知識表達方面做過很深入的研究。
![](http://static.leiphone.com/uploads/new/sns/blogSpe/article/202009/5f64554c47bcf.png)
以下是演講全文,AI科技評論做了不改變原意的整理。
AI的知識表徵一般指從文本提取各種知識圖譜,而人腦里其實存在很多非語言描述的知識。
舉兩個例子,有的大腦損傷的病人,給他一個剪刀,他知道這是剪刀,也知道剪刀是用來剪東西的。但是他完全不知道該怎麼用,連應該怎麼拿都不知道。
另外一類病人,我們也給他一個剪刀,他知道怎麼拿,也知道應該用怎麼樣的動作,但是他是從前往後剪,正常用剪刀都是從後往前剪。
這兩個例子表明,即使是非常簡單的運動動作,也需要存儲知識的指導。人的大腦對外界信號的理解,比如識別語音、識別文字、識別圖片等等,其識別的最終目的是在我們大腦中提取外界刺激所不包含的信息。這就是普遍性的知識,只有提取了這種知識,我們才對信號有了理解,對世界有了理解,我們才能做相應的運動動作。
大腦的知識保存在哪個腦區?如下圖所示,這是我們看一個詞時,大腦的激活狀態。大腦活動一開始直接從視覺皮層激活,但其實這個過程不僅僅包含視覺信號加工,大腦活動會迅速擴散到全腦。
大腦是一個功能分區非常明顯的系統,比如大腦的枕葉處理視覺信號,顳葉處理聽覺信號。那麼知識存儲在哪裡呢?綜合近二三十年的研究,答案是「EveryWhere」。
下圖是綜合09年之前幾百篇研究得到的元分析結果,每一個黃點都是激活點。這是人腦在理解詞彙、圖片的時候激活的地方,實際上幾乎全腦都會被激活,表面知識可能是非常廣泛的分佈式存儲。
大腦的特定腦區保存了什麼信息?知識的保存為什麼需要這麼多腦區的參與?認知神經科學多年來的主流觀點是,即使對一個非常簡單的概念,比如牛,也分成不同類型的知識存儲在相應不同的大腦系統里。
比如聽到「牛」這個詞,我們會知道它的外形、動作、聲音、與人的關係,不同的信息以相應的感覺經驗的模式編碼在系統中。
其中比如牛的外形,我們的視覺系統看過很多牛,那麼相應的激活模式就保存在大腦視覺皮層。下次問我牛的外形,過去的對視覺信號激活的痕迹就會被提取出來,包含它的外形信息。
所以,知識分佈式存儲的原因是:第一,簡單概念中也包含不同類型的知識;第二,特定類型的知識存儲依賴於特定腦區本來的功能。
那麼,這種感覺、運動經驗的編碼是人類知識表徵的全部嗎?人又如何存儲跟感覺、運動信號並不完全對應的各種抽象知識呢?比如剛才所說的牛,牛肉很有營養、牛會產牛奶等等,這種抽象知識怎麼保存在大腦系統里?
我們用實驗來回答這個問題。我們通過實驗探究先天盲人和正常人在顏色知識表徵上的區別。我們大腦中怎麼存儲玫瑰花是紅色這個知識?現有的理論是以過去看玫瑰花的時候,相關的「紅色」神經元的發放模式就會印記為「玫瑰」的知識,也就是說印記在視覺皮層里加工形狀的視覺編碼。
先天盲人出生時由於種種原因而沒有視覺,問他們玫瑰是什麼顏色時,他們仍然正確地回答玫瑰是紅色的。顏色是個很特別的特徵,因為是光波長度特徵,除了視覺沒有其他感覺通道可以感知。先天的盲人既然沒有視覺經驗,只能是靠語言輸入獲得這個知識。那麼他們能獲得不同顏色之間的複雜關係嗎。
我們首先做了一系列的行為實驗。比如,直接問他們不同的東西在顏色上是相似還是不相似、有多麼相似。下圖是他們行為結果的矩陣圖,每一小格都是人們對兩個客觀顏色相似程度的回答,左邊是正常控制組,右邊是先天盲人。可以看到先天盲人不僅僅可以回答顏色知識問題,而且回答的結果模式跟正常人是非常相似的,相關係數是0.88。
此外,對於過渡地帶的顏色,比如酒紅、玫瑰紅這些顏色,盲人和正常人的表現也有很大相似。
下圖是物體顏色的判斷空間的視覺呈現,左邊是正常人控制組,右邊是盲人組,可以看到盲人判斷顏色之間的遠近非常接近正常人。所以即使完全沒有感覺到視覺信號,只提供語言符號信號的話,人也可以建立起相似的知識空間。
![](http://static.leiphone.com/uploads/new/sns/blogSpe/article/202009/5f64554e0b621.png)
通過解碼先天盲人和明眼被試人的腦活動對顏色信息編碼,發現:第一,我們的確發現大腦當中有一片視覺腦區負責正常人編碼顏色,但是盲人並沒有。該腦區包含只對顏色敏感的神經元,正常人的活動模式是兩個東西顏色越像,神經元的活動越像。盲人則沒有這個效應,因為他們從來沒有顏色視覺經驗。
對於盲人而言,在另一個腦區,顳葉前部上側,神經元的活動模式是兩個顏色越像,它們的活動越像。最重要的發現是,不光是盲人,正常人在這個腦區也有一模一樣的效應,也就是說正常人的顏色編碼其實涉及兩個腦區,一個腦區只有正常人有,以顏色感知覺模式編碼顏色知識,另一個區域正常人和先天盲人都有,編碼以語言渠道獲得的知識。下圖是這種雙重編碼的知識系統的示意圖。我們把後面這個視覺信號相關的物體顏色知識一個區域叫「Sensory Derived knowledge representation」,前面這個個區域dorsal ATL叫「Language Derived knowledge representation」。
既然存儲有兩套不同的編碼系統,在大腦不同的區域編碼不同的信號信息。大家可以猜測一下,先天盲人怎麼表徵「彩虹」和「雨」?盲人什麼都看不見,但雨還是能感受到的,比如濕度、觸覺等等,但是看不見彩虹。我們這篇在Nature Communication 2018年發表的工作發現,對於正常人來說,雨和彩虹非常相似。對於盲人來說,雨是一個具體詞,彩虹則是一個非常抽象的詞彙,更強存儲於完全進行符號編碼的腦區,而雨對於盲人而言,還跟正常人一樣,在感覺皮層很多區域都有加工。
我們還可以從另外分佈式網絡結構的角度問人腦知識表徵的問題。再次看看下圖,人在理解詞彙和圖片的時候激活的腦區是分佈式的。這個網絡有什麼結構?
我們可以讓在被試不做任何具體任務、躺着發獃,然後我們通過功能磁共振測量大腦活動。這時候的大腦活動其實也不是噪音,而是有很多內在規律。我們把不同腦區之間的連接強度提取出來,構成一個由點和邊組成的圖,就得到了大腦不同腦區之間的連接方式。
我們觀察這個圖內在的結構,會發現有非常穩定的三個模塊—子網絡。一個是綠色的腦區之間聯繫特別緊密,一個是藍色的腦區之間聯繫特別緊密,一個是紅色的腦區之間聯繫特別緊密。我們根據以前對這些腦區的理解,發現綠色的腦區是語言進行加工的地方。紅色的腦區是感覺、運動的信號進行加工及多感覺通道融合的地方。藍色的腦區是執行控制的系統,是對不同的信息進行組合和切換的系統。
前面發現的提取顏色知識時的兩種編碼腦區正好就分佈在綠色子網絡和紅色子網絡里。所以總體來說,這兩個系統在全腦水平上呈現出兩個不同類型的網絡模塊,分別進行語言符號獲得知識的編碼和感覺獲得知識的編碼。
我們下面的問題就是,這兩個系統的編碼機制是什麼。我針對每一個系統,舉一個實驗來介紹一下我們的思路。
感覺來源的知識:感覺信號還是計算內容?
我們比較先天視覺剝奪對這種分佈的影響。我們讓正常人和先天盲人聽很多不同類型的詞彙,看看他們視覺皮層激活的情況。在某一個視皮層區域,正常人在看沙發、辦公室等大場景的物體,激活就會特彆強。在另一個區域,正常人在看小的工具,比如剛才說的剪子、鎚子等,激活就會特彆強。對這兩個區域,先天盲人的激活模式和正常人是完全一樣的。盲人從來沒有看見過場景和工具,只能用觸覺或者其他渠道獲取相關信息,其激活模式也和正常人一樣。
這是不是因為其實光的信號本身並沒有那麼重要,只要編碼相關形狀的信息,無論是光信號獲得的,還是觸覺信號獲得的,只要是相似的幾何形狀關係計算就可以?
此外,正常人大腦視覺皮層還有一個區域,對動物類的視覺刺激很敏感,比如人的面孔、小貓的形狀、小狗的形狀,但如果聽詞和先天盲人聽詞就沒有這種表現。也就是說,大腦的激活模式不僅僅依據對視覺信號的敏感度,還跟物體的類型有關係。
為什麼會有的視覺皮層區域不受感覺信號通道的影響、有些則受?我們推測,這可能與人視覺加工的計算目的相關。生物大腦識別物體的機制不僅僅是為了貼標籤。人貼標籤是為了交流信息,但是在語言產生之前,人的大腦已經進化了很漫長的時間。在一個簡單的場景中,比如餐廳,我們看到的豐富視覺信息中不同元素需要會引導我們作出非常不同反應。看到人要有社會性反應;看到刀叉要有操作性反應;看到桌椅要有繞開或坐下的反應。
視覺系統處理視覺信號,重要目的是正確的提取相關的反應,以適應生存。
人的視覺識別或者視覺知識的存儲,會額外考慮到人對應的運動動作是什麼。比如下圖中的藍框是人的視覺系統,有不同的層級,這些層級組織的方式要匹配到合適的反應上。
在視覺系統的組織或者視覺知識存儲的時候,跟反應之間的對應關係就有可能發生在不同的層面。所以,我們可以理解,對於沙發、鎚子等物體,盲人和正常人的視覺組織方式是很相似的,這是因為他們有可能在視覺和運動信號對應上是比較透明的。盲人雖然沒有視覺,但是以同樣的方式使用這些物體。但是有可能對於蛇、蝴蝶、老虎等等這類信號,並不是從形狀上判斷如何反應,正常人和盲人接收這些信號的通道不一樣,所以正常人和盲人的感覺組織方式就不一樣。
按照特定感覺信息所編碼的知識體系,不僅僅是感覺信號本身,還要考慮到不同系統之間的對應關係。所以,人腦的感覺知識編碼和僅對標籤分類進行訓練的深度學習是非常不同的。
語言來源的知識和AI的知識圖譜
所以我們做了一個初步的嘗試,看它們之間是不是真的有對應關係。我們同時做了兩個實驗,給定同樣的詞,一套提供給人的大腦系統,一套提供給AI系統,然後建構相關性表徵。下圖左邊矩陣是人在掃描儀裏面看那些詞(比如贊成、多數、幻想)然後對每一個詞獲得一個大腦活動的模式。下圖右邊是我們用word2vec的方式建立的詞和詞之間的關係。
我們發現人腦幾個語言子網絡中和word2vec模式唯一有顯著相關的就是綠色的系統,也就是人對語言符號加工比較敏感的系統。
大腦系統里可能有這樣的綠色系統,它並不關心特定的感覺信號來源比如視覺、聽覺、運動等等,但特別對於抽象符號類型的關係很敏感。第一個相關證據是,先天盲人完全沒有視覺經驗,沒有任何其他感覺信號可以獲得顏色知識,其編碼區域就是在這個綠色系統。第二個相關證據是,綠色系統的活動模式跟word2vec相關,而其它的區域跟word2vec都不相關。
總結
![](http://static.leiphone.com/uploads/new/sns/blogSpe/article/202009/5f6455512f4bf.png)
知識在在人的大腦里以這兩套模式存儲,組合在一起是人類知識表徵。無論我們是看一個圖片,還是看一個詞,最終都是這兩套系統一起激活。需要額外強調的是感覺知識的表徵,不僅僅和感覺信號本身有關,還和運動動作相關。我們推測可能感覺來源的知識系統對非文本編碼的「common sense knowledge」表徵有額外重要的作用;而語言來源的知識系統也在視覺識別中有所影響。