張含望:將因果關係引入電腦視覺的「小學生」

  • 2021 年 1 月 28 日
  • AI

如果能設計一個機器,像人類先賢一樣,把萬有引力定律、π 這些算出來,這才是真正的人工智慧。

作者 | 陳彩嫻
二戰期間,美國心理學家、被稱為「行為主義之父」的 B. F. Skinner 進行了一項名為「鴿子迷信」(Pigeon Superstition)的著名實驗:
將鴿子放置在一個封閉的箱子內,定時打開投喂窗。在實驗過程中,鴿子無意做了一個動作(比如扇翅膀,或跺腳),箱子的投喂窗口被打開,鴿子得以餵食。接著,它繼續重複這個動作,果然,投喂窗口再次打開。於是,這隻鴿子就會一直重複這個動作。
在鴿子眼裡,它以為只要自己扇翅膀,投喂窗口就會打開。它們迷信自己的某些行為與結果之間存在聯繫,但實際上,兩者之間並不存在因果相關。真正的「上帝之手」是人類管理員手中的按鈕。
圖註:鴿子實驗
事實上,早在公元前,柏拉圖在其著作《理想國》中便介紹了一個思辨實驗,叫做「洞穴寓言」(Allegory of the Cave)。在這個實驗中,有一束光照進洞穴,將外界的事物投影在洞壁上,洞穴里的人只能通過投影去觀察外面的世界。
圖註:柏拉圖的「洞穴寓言」實驗
結合這兩個例子,來自南洋理工大學(NTU)電腦科學與工程學院的助理教授張含望提出一個觀點:人類觀察世界的方式幾乎與鴿子無異。由於感官的限制,我們也是在一個受限的、封閉的環境中觀察事物,然後進行測量與定義。
在這個基礎上,張含望總結,「智慧/智慧」(Intelligence)的定義是:從觀察投影中重建世界。也就是說,人類需要對「洞外」的世界進行建模,隨後根據自己的觀測,與該模型進行擬合。而所謂 AI,則是:從數據投影中重建世界。
但是,正如 Carlo Rovelli 在《現實不是你所見:量子力學之旅》(Reality Is Not What It Seems)一書中所提到的,我們觀察到的不一定是真實的世界。比如,在麥哲倫進行環球旅行之前,人類一直認為地球是方的。
同理,當前 AI 所觀察/重建的世界,也不一定是真實的世界。在本質上,目前的 AI 只是人類因為懶惰而發明的工具,並不具備智慧。
在他看來,AI 仍是一個比人類更低維的生物,與人類之間存在很大差距,對事物的因果推理能力便是其中之一。因此,張含望提出將因果推理引入 AI 研究中,比如目前最火熱的電腦視覺方向,希望推動該領域的進一步發展。
 
1

「Underground」科研路

由張含望創立並帶領的機器推理與學習實驗室(Machine Reasoning and Learning Lab,簡稱「MReal」)是全球第一個將因果關係推理引入電腦視覺研究中的團隊。
2018 年 1 月,張含望正式入職南洋理工大學,在電腦科學與工程學院擔任助理教授,並獲得「南洋學者」資助,創立了 MReal 實驗室。
MReal,讀作「Me Real」,意為「我很Real」。這個有點「中二」的名字其實來源於中國的綜藝節目「中國有嘻哈」。當時,中國有嘻哈火遍大街小巷,說唱選手經常說「Keep real」(保持真我),這似乎很符合張含望對自我與科研的期許,於是便起了這個名字。
他稱,如果 MReal 是一家風格獨特的說唱廠牌,實驗室里的學生則是 AI 學術圈裡視覺因果一派的「Young OG」,自己是主理人;如果MReaL是一家電競俱樂部,學生則是因果戰術流的”ADC大哥」,自己則是身兼輔助與教練。
圖註:張含望在一次演講後向學生表達「瑞思拜」(Respect)
一開始,MReal 主要研究電腦視覺與多媒體資訊,2019 年才轉而研究因果推理。不過短短兩年時間,張含望便因其在視覺與因果推理結合上的研究貢獻,被 IEEE Intelligent System 評選為 「AI 十大潛力人物」(AI’s 10 to Watch)之一
張含望的科研精神與「真我」的嘻哈精神有著相似之處:不盲目從眾,追求個性與創新。
當前,Vision-Language(視覺-語言,以下簡稱「VL」)的大部分工作都是研究注意力機制,或是研究數據集,而張含望是學術界研究 VL 的一股清流,偏向於尋找一個通用框架,將離散符號化的語言和向量連續化的視覺相結合,也就是「因果推理」。
張含望追求創新的科研風格,最早是受到浙大師兄楊易的影響。
2005年,張含望憑藉高中物理競賽成績參加自主招生考試,順利進入浙江大學竺可楨學院(以下簡稱「竺院」)混合班就讀本科,攻讀電腦科學專業。儘管高中就讀於省重點,從小到大也算是一個學霸,但張含望回憶,當年他在人才濟濟的竺院是一個很卑微的存在:
「我天天學習,上課認真聽講,獨立完成作業,最後考試分數還沒有天天談戀愛、玩樂隊、參加各種社團活動的同學高。」
竺院的學習經歷對張含望最大的影響,不是所學習的知識,而是讓他了解到一個優秀的人可以有多優秀:「從智商,到情商,到顏值,到多才多藝,最後到考試成績,你會發現你的同學就跟偶像劇里的男主一樣。」
張含望認為,自己沒有拿得出手的特長:「彈吉他也不會,彈鋼琴也不會,打籃球也不行,打遊戲也不是職業選手的水平,就只能搞一搞科研了。」竺院鼓勵學生在大二下學期便到浙大的各個實驗室實習,於是,張含望便開始張羅實驗室的實習申請。
2007年前後,電腦系最火的是嵌入式系統,其次是電腦圖形。當時,浙大的圖形與並行系統實驗室(CAD-GAPS)也引進了許多從國外回來的學術大牛(包括周昆等人)。可想而知,申請研究熱門方向的實驗室實習競爭非常激烈。
張含望的成績不佔優勢,自知無法進入這些熱門的實驗室,便申請了當時最冷門的人工智慧研究所。
在人工智慧研究所實習期間,張含望在導師吳飛(當時是師資博士後,現為浙大人工智慧研究所所長)的帶領下學習 PCA 公式、人臉識別、流形學習與圖結構嵌入等知識,由此開始了自己的 AI 科研探險。
他在研究所中遇到了楊易。那時候,楊易正在浙大讀博。2010年,楊易從浙大獲得博士學位,赴卡內基梅隆大學電腦系攻讀博士後,如今在悉尼科技大學擔任工程與資訊技術學院教授,以及 ReLER 實驗室負責人。
張含望調侃,楊易在實驗室天天炒股、打星際,又愛玩、又能掙錢、還能發paper。實習時,因為與楊易走得很近,楊易在無意中給他灌輸了一種思想,就是千萬不能抄襲,不能盲目跟風,而是要多思考新的點子。
比如,楊易在讀博期間於 IEEE Transactions on Multimedia 上發表了論文「Mining semantic correlation of heterogeneous multimedia data for cross-media retrieval」(浙大電腦學院發表在 Transactions 上的第一篇文章)便只用到了 5 行程式碼。
這讓張含望覺得很神奇:原來我們不一定要學習很牛的編程,學好數學似乎更重要,可以達到「四兩撥千斤」的效果。
之後,張含望便與本科同學走上了不同的道路:他的許多同學都在實驗室寫手機程式或調程式碼,而他則跟著楊易、吳飛等人學習公式。也是從那時候開始,他逐漸轉向看一些比較偏理論的研究工作。
 
2

讀博:研究多媒體資訊處理

在張含望臨近本科畢業時,全球金融危機爆發,美國院校發放給中國留學生的 offer 品質也隨著經濟衰退急劇下降。
張含望記得,當時竺院排名第 5 的同學也只拿到了 UCLA 的 offer,而像他這樣成績平平的學生,美國的學校基本不用指望。加上家庭原因,他希望選擇一個離家近一點的學校繼續深造,但又已錯過保研、保博的最佳時機。
於是,在當時研究所主任庄越挺(現任浙大電腦學院院長)的推薦下,張含望聯繫了新加坡國立大學(NUS)的蔡達成教授。蔡達成是 NUS 電腦學院的首位院長,主要從事多媒體資訊處理,是該領域的泰斗級人物。
蔡達成很歡迎他過去讀博,於是,2009 年本科畢業後,張含望赴 NUS 攻讀電腦博士學位,開始從事多媒體語言研究。
圖註:新加坡國立大學
在讀博期間,張含望的工作曾獲得 ACM MM 2012 最佳演示亞軍(Best Demo Runner-up),ACM MM 2013 最佳學生論文獎,NUS 電腦學院最佳博士學位論文獎。
但據張含望介紹,他讀博的過程並不算順利,直到博士三年級才發表了第一篇 CVPR。而當時,CVPR 的影響力並不如 ACM MM。2012年,CVPR 的參會人數才 300 多人,學術界普遍認為,ACM MM 的長文要比 CVPR 的 poster 論文高出不止一個檔次。所以,他當時發表了一篇 CVPR,只能算是剛入門。
「因為我對自己的要求也比較高,我想做一些比較有影響力的工作。」張含望如是說。
由此不難推測,張含望的讀博經歷就相當於一個「不斷跟自己死磕」的過程。他引用一位華裔博士生 Philip J. Guo 的部落格《The Ph.D. Grind: A Ph.D. Student Memoir》,其中,「grind」一詞的含義是「研磨」,實際上就是「死磕」的意思。
「讀博時,你就是應該每天沒事兒就跟自己抬杠,再跟別人抬杠。如果你能成為某一個領域的杠精,那你的 PhD 就可以畢業了。」
張含望在 NUS 讀了近 5 年博士,畢業後繼續在 NUS 擔任 3 年博士後研究員,期間獲得 ACM SIGIR 2016最佳論文榮譽提名。隨後,2017年,他前往哥倫比亞大學 DVMM 實驗室從事博士後研究工作。
求學期間,他曾與蔡達成、張世富、顏水成、何向南、聶禮強等多位知名研究者合作,見識了不同人生選擇之後的發展路徑。而對他做科研影響最深的,是兩位潛心做學術的導師:蔡達成與張世富。
在博導蔡達成身上,張含望學到最重要的一點是:做研究要純粹,要做有影響力的工作,而不要為了短期的利益放棄長遠規劃。
圖註:張含望(右)與蔡達成(中)
「他是一個淡泊名利的人。儘管在學術界的威望很高,但直到現在,他的許多學生都入選了各種 Fellow,他還不是 IEEE Fellow 或 ACM Fellow,甚至連 Member 都不是。」
此外,蔡達成對生活的熱愛也感染了張含望:「他非常熱愛生活,把做學術當成是他生活的一部分。」興許是在導師的影響下,張含望也很接地氣:他閱讀各種各樣的書籍,看說唱綜藝,關注微博八卦,將「時間管理大師」、《祖宗十九代》這類接近生活的梗用在因果關係推理的講解中。
而博士後導師張世富對他的影響,則體現在對自己科研方向的堅持,與世無爭;此外,張世富「很清楚自己需要的是什麼,不輕易受到旁人的影響」。在張含望看來,後者是衡量一個人是否成熟的重要標準。
「他在江湖中的傳言可能是一位很嚴厲的老師,但在我看來,他是一個非常可愛的人。」張含望不掩其對張世富的欽佩之情。
圖註:張含望(左)與博士後導師張世富(右)
張世富出生於台南的普通家庭,憑藉自己的努力以高分考上國立台灣大學,隨後赴 UC Berkeley 讀博,保持卓越的成績。1993年,張世富博士畢業,美國社會對華人的歧視與排斥仍未褪去,而他剛從伯克利畢業就能加入紐約市哥倫比亞大學擔任教職,如今已是哥大電機與電腦工程系教授兼副院長,其學術能力可見一斑。
另一點讓張含望佩服的是:儘管張世富的地位有很多賺錢的機會,但他沒有選擇利用自己的科研去謀利。2017年,中國人工智慧發展火爆,很多機構高薪聘請他擔任職位,他一一回絕。在一次會談中,張含望問導師為什麼不利用自己的研究成果去賺錢,張世富只是淡淡地說了一句:「不就是少了幾個億嗎?」相比賺錢,張世富知道自己更喜歡在高校做研究。
導師對科研的純粹態度,與當下討論火熱的內卷現象形成鮮明對比。張含望因此感慨:現在的年輕學生為了發高峰會論文絞盡腦汁,但發高峰會可能不是 Ta 真正想要的,而是因為周圍的同學都在努力發高峰會,Ta 隨波逐流而已。「至於是誰引領了這一風氣,他們並不在意。」
大約是受導師的影響,張含望在招收博士生的過程中,最看重的是兩點品質:一是熱愛自己所研究的內容;二是知道自己想要什麼。
「不管 Ta 將來是想靠研究成果賺錢,比如發5、6篇 paper進入大廠,年薪百萬,還是想繼續在學術界做研究,不管 Ta 的理想是功利的還是純粹的,只要 Ta 為自己的研究著迷、並願意付出,我都給予肯定。」
 
3

在 CV 中引入因果推理

2014年,張含望從 NUS 博士畢業。當時,多媒體資訊處理的研究熱度已開始下降,VQA 剛剛興起,許多人轉去研究 CV,張含望也是其中之一。他選擇將 CV 與原先所學習的多媒體知識相結合,即所謂的「視覺-語言」(VL)。
在剛擔任教職時,張含望便敏銳地發現,大家在研究 VL 時集中於研究注意力機制與模型擬合。MReal 也沿著相似的方式去做了一些研究,即將連接主義與符號主義進行簡單結合,語言端完全符號化,視覺端完全向量化,但所取得的效果並不是很好。
2019年,張含望到美國長灘參加 CVPR,偶然在一個名為「Computer Vision After 5 Years」(五年之後的CV)的研討會上聽到了許多 CV 領域知名學者,包括 Jitendra Malik、Bill Freeman、Rick Szeliski、Cordelia Schmid、Ross Girshick 等人的演講。
圖註:「五年之後的CV」研討會所邀嘉賓
在會上,學者們詬病了當時 CV 領域所存在的一些問題,比如,炫酷的生成模型只是淺顯地學習偏差,卻沒有真正理解影像的內容,可解釋性差;再有,許多 VL 研究都只是在創造新的數據集,用來發現偏差,隨後又丟棄,數據集並沒有形成 Benchmark,如此無限循環。
張含望與他們的看法不謀而合。
「我一直認為人類的語言是符號化的。當你在組織語言時,你不會用到你的通感。比如當你說貓和狗的時候,除非你給自己很長的時間,否則你不會具象化到一個狗和貓。如果你去交談的話,你說的每一個詞都是一個抽象的符號。所以我認為,在語言端,如果你要讓圖片生成語言,那麼一定要把圖片的內容抽象化成可被語言總結的一個符號。
令他感到慶幸的是,儘管一些學者也發現了這些問題,但不知道如何解決,而他從那時候開始就有一個強烈的直覺:提高模型可解釋性的解決方案之一,就是在視覺研究中引入因果關係推理。
那一年,他開始閱讀因果推理研究的相關書籍,比如 Judea Pearl 的《The Book of Why》。張含望讀了一遍半中文版,四遍英文版,時不時還回頭去翻看。「我看這本書至少派生出 10 個 idea,7篇已經發表,還有幾篇在等待發表。」
目前,MReal 在將因果關係引入電腦視覺的研究方向上已取得一定成果。
比如,他們的研究工作「Two Causal Principles for Improving Visual Dialog」,僅用一個損失函數的技巧,就可以讓所有視覺對話的模型超過 SOTA,取得 Visual Dialog Challenge 2019的第一名,性能比第二名絕對高10個點,以至於2020年主辦方為此修改了比賽規則。在這背後,就是用因果關係對數據集進行細緻分析後,發揮了強大的作用。
圖註:MReal 參加 Visual Dialog Challenge 2019 獲得冠軍
MReal 的另一項成果「Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect」,也是用因果關係解釋了當前在長尾數據訓練里一些詭異的trick,不需要對分布設計複雜的損失函數,就可以完美解決分類不平衡的問題。這類「四兩撥千斤」的技巧還廣泛應用到了元,增量,小樣本,零樣本學習,以及VQA,圖文生成,檢測與分割等問題上。
張含望的研究目標之一,是希望在電腦視覺領域,結合因果推理研究推出自己的作品,吸引更多人用因果關係研究 CV,形成一個流派。
他們的計劃是用因果關係將所有能夠研究的項目都研究一遍。張含望強調:「因果推理不是一個具體的演算法,而是一種思維模式,一種研究問題的角度。我想給每一個cv的研究領域都拋一個因果的磚。」他認為,只有引入因果關係推理才能避免 CV 領域一些可笑的研究,推動領域的進一步發展。
此外,MReal 正在嘗試通過群論的方式來定義因果關係中最重要的概念,將因果推理做成一套更容易入門的具體演算法和方案。
他談到,之前帶過一些交換生,離開 MReal 回到原來的學校後,如果再去做因果推理,會遇見很多困難。「只有跟我距離很近的,能夠天天跟我討論的學生才能做出來。我覺得這可能就是一個門檻,而我不希望門檻長時間存在。

圖註:MReal 實驗室部分成員合影
張含望認為,因果關係(causality)是實現人工智慧的起點。因果關係具備幾個重要特徵:
  • 因果關係來源於科學,而不是來源於數據(觀察)
  • 因果關係是可以被數據證偽的;
  • 因果關係打破了當前擬合的條條框框(將來會成為一個革命);
  • 因果關係與網路模型無關。
他還提到,目前 AI 研究不重視因果關係的原因,主要有以下3點:
1)當前 AI 研究對國計民生的影響不是很大。目前,AI 的落地更多是使用推薦演算法在多媒體平台上進行產品優化推薦,而不是應用在類似醫療、政策制定等重要領域。比如,如果你去醫院看病,讓你在機器人醫生和人類醫生之間選擇,大家應該都會選人類醫生,因為現在的 AI 能力還不足以讓我們信賴。
2)人類對自己的智力不夠自信。比如,我們認為下棋很聰明,卻不認可冒泡排序背後的強大邏輯,因此當 Alpha Go 打敗世界圍棋冠軍時,大多數人感到震驚。對機器來說,概率計算不難,但理解冒泡排序卻很難。
3)人類很幸運。其實關聯(correlation)不等於因果(causality),但在許多實際情況下,關聯等同於因果(比如種牛痘),因此我們容易將兩者混合,趨於研究事物之間的關聯/擬合,而不去挖掘背後的因果關係。
張含望強調,研究因果不等於捨棄研究關聯。相反,他希望「correlation + causality > correlation」。如今,電腦視覺的許多工作是研究「correlation」,而張含望將因果推理引入 CV,無疑是開拓了一條人跡稀少的道路。
 
4

學者之風:精通理論,傳播知識

一個學者的使命,應該是用知識去影響更多的人。」 這是張含望內心的信仰。
比如,衡量一篇科研文章的好壞標準,是讀者只要具備本科知識背景就能夠讀懂。
他談到本科期間很喜歡的一位老師,名叫陳天洲。這位老師也是竺院混合班出身,直博、留校任教,2006年晉陞為浙大教授。陳天洲老師非常熱愛科研,但很不幸,在2015年因為胰腺癌離開了人世。
張含望回憶,在老師剛發現得了胰腺癌時,頭兩年自己去看相關的醫學文獻,自學成才,還發表了兩三篇治療胰腺癌的文章。這件事給張含望帶來很深的感悟:「我覺得一篇好的文章應該是能夠救命的。你的文章一定要寫得足夠好,在一個行外人需要這方面知識時能夠很好地幫助到Ta。
除了寫好科研文章,張含望還認為,一個合格的老師應該精通理論
在指導學生的過程中,他通常是自己去閱讀各類文獻或書籍,消化艱深的理論,將想法具象化出來,然後結合學生的研究,儘可能以通俗的故事將想法傳達給學生,然後由學生通過數學演算能力和編程能力將理論變成可執行的步驟。
談起學生,張含望自豪地說:「我覺得我都是被我的學生帶飛。他們的科研方式與科研風格都很成熟。如果硬要說他們還有什麼不足的話,可能只是因為剛入門,對這個行業還不夠熟悉而已。」
AI 的發展仍是漫漫長路。張含望提出:數據是機器觀察的實踐,能否設計一個機器,像人類先賢一樣,把萬有引力定律、π 這些算出來,才是真正的人工智慧。而將因果推理引入 AI 研究的時間還很短,希望這位「小學生」能給我們帶來更多的驚喜!
 
5

研究探討 Q&A

1. OpenAI 近期開發的 DALL·E 模型展示了近乎擬人的語言-影像轉換能力,您如何看待這項工作的意義?

我覺得它肯定是一個很偉大的工作。它的偉大之處就跟 Alpha Go 一樣,Alpha Go 讓人看到深度學習的強大,DALL·E 讓人看到 Vision-Language 的強大。

圖註:DALL·E 效果示例
相比理論上的創新,我更關心的是 DALL·E 具體用到了哪些 Transformer 技巧,如何讓這些離散的符號與向量化的視覺之間的 gap 越來越小,以及用了哪些數據、多大規模的數據。
Vision-Language 此前一直被認為是灌水的領域,但 DALL·E 的出現讓大家看到了這個方向的潛力,就像 Alpha Go使深度學習為大眾所認知一樣。當時,深度學習已經很火,但公眾不認識,大家都覺得我們是一幫在實驗室里做研究的書獃子;但 Alpha Go 出來以後,大家都覺得:「你們這些書獃子真的太帥了!」
我希望DALL·E能開源,MReal 就可以在使用比較廉價顯示卡能跑動的情況下,基於這棵參天大樹添加一些枝葉。
2. 您如何看待連接主義與符號主義結合的意義?
MReal原本做的工作基本上是連接主義與符號主義的結合。當下,如果做純符號,符號推理的正確率很高,但是你怎麼得到魯棒的符號?比如說,你怎麼把所有的貓和所有的狗都很能魯棒的檢測出來,然後把真實世界中所有很連續的、很魯棒的感知訊號抽象成符號?這本身就是一個很難的問題。而你要做好這一點,必須要通過連接主義來做檢測、預測。我認為AI將來最終的形態肯定是底層是連接主義,高層是符號推理。
但是,把深度的網路放在前端,符號放在後端,為什麼效果比較差?因為它不是一個完整的端到端的模型。前端的深度網路檢測出物體,接著就必須馬上做一個離散的決策,把物體變成符號,然後再去做推理。這中間會有一個代溝。
在深度學習中,如果將它們放在一起進行優化,代溝就會產生非常巨大的誤差。所以,現在連接主義跟符號主義所結合的研究主流,是把代溝進一步細分成模組化的embedding,但是這個模組還不是一個嚴格意義上的離散的符號,它也有它的embedding。
我認為,當前連接主義與符號主義的研究仍有很大的發展空間,而因果關係是解決這個問題的關鍵因素。
3. 深度學習和符號推理的泛化能力很不一樣,前者更擅長內插 (interpolation),後者更擅長外推 (extrapolation),您如何看待兩者的結合?
不管是深度學習還是符號推理,如果沒有用到因果模型,都是在做完形填空 (內插),因為它們是沒有想像能力的 (外推)
想像能力在因果關係裡面的術語叫反事實推理。什麼叫反事實推理?比如說,你本科上的是 a 學校,你去想像:如果你沒有上 a 學校,上了 b 學校,那麼你現在是一個什麼樣的狀態?這就是基於現在的想像,而想像的能力是人工智慧的巔峰。你只有做到想像,你才能夠去想像出新的模型,然後去外推到沒見過的情形。
人類社會的本身就是一個想像的結果。關於想像力的一個具體例子是錢的發明。在人類社會最早期的時候,錢的概念並不存在,而是以物換物。後來,以物換物不能滿足需求,比如,你需要喝酒,手裡有酒的人需要牛皮,而你手裡只有棉花。這時,以物換物的形式就不適用。久而久之,人類通過想像,將自己的剩餘物注入國家的公權力機構(國家金庫)中,貨幣由此誕生,全部人類由此連接。這是尤塔利在《人類簡史》里講過的故事:人類社會的形成,是基於想像力。藝術、宗教、金融市場等等,都是「外推」。我們如今燦爛的文明成果,皆是「外推生成「的。
4. 您認為引入因果關係推理能夠為 CV 研究提供哪些新的角度?
我認為因果關係推理是 CV 研究的必備工具,它就應該在CV中。人類的所有科學發現本身就是:先假設理論,然後通過觀察,形成自己的想法(也就是自己的方法論/理論),將數據套入理論中,之後再看往後觀察的測試數據是否會推翻。如果推翻了,便進行二次修訂,如此輪迴。
深度學習火了之後,幾乎所有研究方法都是在研究數據的擬合。在算力強大的模型上,研究人員可以很好地進行測試數據的擬合,但他們忽視了一個問題,就是:在一開始,他們就沒有針對整個問題建立一個合理的模型。
舉一個老生常談的例子:巧克力的銷量跟諾貝爾獎的得獎數是一個明顯正相關。如果你建立一個模型來擬合這個正相關,你將得到一個很好的模型:能夠準確預測,一個國家的巧克力銷量越高,這個國家得諾貝爾獎的可能性就會更大。但如果你拿這個模型去做一些很重要的事情,比如做一個政府決策,你可能會為了得到高的巧克力銷量,讓所有學齡小孩每天多吃一公斤巧克力。 

圖註:巧克力銷量與諾貝爾獎獲得者數量呈正比
這顯然是一件很荒謬的事情。這也是為什麼現在的深度模型還不能夠被人們信任的原因之一,而且我認為這也是最重要的原因。
如果引入因果關係的推理,你能對剛才所說的問題做一些改進。
就剛才的例子來講,如果一個研究者不只是基於巧克力的數據和諾貝爾獎得獎的數據,就去造一個很fancy的、很漂亮CNN網路,而能夠稍微去想一想背後的社會學原因,經濟學原因,你可能會建立出一個模型,能夠推斷:巧克力的銷量上升,可能往往是發達國家,國民本身就很富裕。由於國民都很富裕,對科研的投入和教育的投入也會相應更充足,那麼你的模型就會避免這種很荒謬的偏差。
它只要捕捉到巧克力銷量高的背後原因是GDP高,他就會知道,如果你只是提高巧克力的食用量,而不提高國家的經濟實力,那麼對你拿諾貝爾獎也是沒有任何幫助的。這樣的模型就是可解釋的,可信賴的。
而引入因果關係,能夠提高模型的決策能力,讓模型的思考更加完善。
5. 能否談一下常識、知識與記憶之間的關係?現在深度學習其實有一些很不合理的地方,比如算數。深度學習能夠戰勝世界圍棋冠軍,卻無法掌握連小孩子都懂的簡單算數。
小孩子能夠通過1+1=2來得出100+100=200,是因為小孩具有符號推理能力,也就是想像能力(外推)。而機器在算數上的準確率不高,是因為機器缺少外推的想像力,所以無法具有我們人類的可拓展能力。
要達到這種能力,我認為 Attention is NOT all you need,還要引入一些高級的變化,比如群論知識。就是一個物體變換在某一空間的表示雖然跟它在另外一個空間的表示不同,但它代表同一個物理意義,只不過它的形態跟操作方式都變掉了。
我認為現在的模型泛化能力做得不好,是因為通過深度模型後,很多變換都失真甚至消失了。深度學習認為,給模型輸入的數據被標記為某種變換形式,模型所學的embedding也要是這樣的形式。這個約束太強了,也不合理。深度學習已經在被動群變換(比如supervised learning)的表示學習上取得重大進展,我認為下一步應該是在自主群變換上取得重大進展。這樣,才可以學習到可以用作外推的模組。不過,我貌似沒有在現有的self-supervised learning (自監督學習)里看到突破。
6. 您覺得,如果深度學習結合因果推理,能夠提高機器的常識能力嗎?
會。
首先我們定義常識。我認為哲學對常識的定義是不可計算的。之前我們做過一篇工作,叫「Visual Commonsense R-CNN」。我覺得這是一個被低估的工作。這篇工作其實有討論什麼是視覺常識,將常識引入了深度學習中。當我們把 commonsense(常識)拆分為兩個單詞:common+sense,你就能知道,「common」的意思是大量的共生。比如只要下雨,室內就會潮濕,那麼你就容易將「下雨」和「潮濕」聯繫起來。而 sense 是 sense-making,意思是「有道理」,也就是掌握了魯棒的因果關係。
比如我們剛剛舉的例子,吃巧克力就能得諾貝爾獎,你會覺得這是沒有道理的。但是,它又確實是正相關的統計結果,你能說它錯嗎?只是,在常識的指導下,你認為它不對。因為你做過類似的干預實驗:比如我本人高中就吃得好,兩百斤的體重也沒讓我考上清華。也就是說,「吃巧克力」與「得諾貝爾獎」之間沒有因果關係,只是一個正相關的統計結果。
所以我認為,人類經過總結所得到的魯棒的兩個元素之間的因果關係就叫「常識」。
這時,我們就可以基於這個定義去做一些測試。比如,跳廣場舞的大叔大媽的常識,與受過高等教育水平的青年學生的常識,可能不是同一個常識。父母常說的養生知識,多喝熱水、多吃枸杞,可能在你看來是很荒謬的,因為你讀了更多的書,有了更多的生活閱歷,看了更多的東西,你會把一些虛假的關聯(混雜因子)給刪除掉。
但如果你只是想要make sense,一個物理學家告訴你引力波、黑洞是什麼樣,你又會覺得不夠common(普遍),因為這些是知識,而不是常識。
7. 您如何看待許多人常說的「可解釋的模型性能不好,性能好的模型不可解釋」?
我覺得這個觀點是在耍流氓,就是「我不懂的就是不好的」。可能大家對可解釋性有誤解。如果將來機器有生命,知道自己是人工智慧後,他可能會問一個問題:我的機理為什麼一定要能被人類理解?你隨便問一個人:你理解整個宇宙了嗎?沒有理解,但宇宙是存在的。郭老師說,你看不見 Wifi,但你能說它不存在嗎?你不能因為你無法理解某個模型/深度學習理論,就說它的可解釋性不好。
我們定義「可解釋性」,不能只是說學到了某個可以可視化的東西。我覺得這個觀點太膚淺了。在我看來,在機器學習和統計學當中,可解釋性都叫inductive bias(歸納偏置)。「解釋」本身就是一種bias。如果你將人類這種碳基生物所掌握的歸納偏置硬塞到一個硅基生物的模型里,比如深度學習網路,讓它順著你的想法來學它,性能當然會變差。所以我認為這個論斷是不對的。
那麼,如何讓模型既能達到可解釋,又能達到性能好呢?這其實是翻譯的問題,就是如何將一個黑盒子的深度學習網路的機理翻譯出來。這又要扯到群論上:任何特徵的提取都是一種變換,這種變換必須要能夠翻譯過來,即找到咱們人類理解的空間當中的變換,這就叫「同態變換」。要不然永遠都是雞同鴨講。我們目前就在研究如何用因果理論來發現這種「同態」。
8. 對於想要從事人工智慧研究的在校生,您有哪些學習建議?
1)對於本科生:
我覺得千萬不要跟風。就我個人的例子來說,如果我當時跟風,一腦子只學編程程式碼,那麼我現在可能就只是一個高級碼農,而無法從事自己所真正熱愛的職業。一定要知道自己想要什麼。現在很多年輕人覺得自己被「內卷」,活得很痛苦、很焦慮,我覺得是因為 Ta 不知道自己想要什麼。在他們眼裡,Ta的人生選擇完全是受制於他人眼中的選擇。他沒有真正為自己做過選擇。
另外,如果一個本科生未來想從事 AI 的話,我覺得還是應該多學基礎,比如數學。不要看到你的同學去了其他大廠實習,發了一篇高峰會,你就著急。如果你真的要進入一個專業的領域,發高峰會只是時間問題。別人所擁有的東西,可能是因為機遇,而不是實力。你完全沒有必要羨慕其他人,而是應該羨慕自己手上所擁有的東西:年輕。
本科生不要浮躁,不要為了發paper、申請美國的好學校,就強行要求自己去哪實習、發高峰會。我其實挺反感這樣的做法。當然,我覺得是有天才的,我也見過這樣的天才,既能做一堆實習、發表高峰會,還能把基礎知識學好。對於這種天才型的學生來講的話,我覺得根本不需要我們常人給 Ta 建議。他想做的事,他喜歡做的事,他做任何行業都可以做的很好。
2)對於博士生:
就像《The Book of Why》里所談到的,你要不停地問自己為什麼,大到問為什麼要做某個方面的研究,小到具體問為什麼某個技巧能夠work?甚至你可能從一個非常稀鬆平常的工作,通過不停地問為什麼,來發現一個新的領域和一個新的方法。
如果你的每一步都建立在問為什麼的基礎上,沒有偷懶,沒有盲目跟風,且你的每一步都是建立在自己能夠回答自己問的「為什麼」的情況下,那麼我相信,你的工作一定是非常impressive,非常具有影響力的。
9. 您認為本科生在本科階段最重要的是打好基礎。那麼,如果一個本科生畢業後直接申請您的博士,您是不是就不太看重 Ta 的大廠實習或者高峰會論文數量?
對。
我覺得大多數本科生所發表的任何論文,我應該多少能知道你是怎麼發表的。有可能是你的老闆急需paper,你跑了一段時間程式碼,發表了論文。在我看來,一個本科生的人生閱歷是很難讓他完全獨立地想出一個idea去研究的。如果你的idea不是獨立的話,你發10篇高峰會,只能證明你的程式碼能力還是ok的,你做科研工作不會累趴,但對科研的熱愛並不需要用高峰會的數量來證明。
判斷一個本科生是否有科研潛力,本來就應該是一個導師賴以生存的看家本領。一個只通過高峰會paper來判斷是否錄取你的導師,就好比盲目跟風的投機者,購買已經在高位的股票的一樣,這本身就是一種為了節約溝通成本的偷懶行為。本科生努力發高峰會,就是在用大廠或導師偷懶的錯誤行為,來懲罰自己本該有無限可能的青春。
我的學生進來都沒有paper,出來都有了,這才是真香。

參考鏈接:
1. //personal.ntu.edu.sg/hanwangzhang/
2. //www.researchgate.net/scientific-contributions/Hanwang-Zhang-2045010153
3. //zhuanlan.zhihu.com/p/95465063
4. //blog.csdn.net/xwukefr2tnh4/article/details/106293427

點擊閱讀原文,直達AAAI小組!

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。