孫茂松:深度學習的紅利我們享受得差不多了!
- 2019 年 11 月 22 日
- 筆記
出品 | AI科技大本營(ID:rgznai100)
【導讀】2019 年 10 月 31日,在北京舉行的智源大會上,清華大學教授、智源首席科學家孫茂松接受了媒體採訪,暢談當前人工智慧技術與產業應用發展現狀和存在的問題,包括自然語言處理研究面臨的瓶頸、神經網路黑箱、常識、大數據與知識等,並提出了他對於改進 AI 實用性的看法和建議。本文將提煉孫茂松教授在訪談中表達的主要觀點,供讀者交流。
下一步,人工智慧的核心任務是自然語言處理
訪談伊始,孫茂松首先簡單概括了一下人工智慧近幾年的發展狀況。他說道,人工智慧這幾年的發展,大家接觸比較多的是影像方面的成果,包括很多創業公司的人臉識別、刷臉等技術,我們可以看到影像方面的進步非常快。但是,影像只是智慧的一部分,人的智慧區別於動物其實最主要的特徵是語言。人工智慧領域有一句話:自然語言理解是人工智慧皇冠上的明珠。
下一步,人工智慧的核心任務是自然語言處理。影像在一個影片里也有非常複雜的語義,我們現在還做不到完全理解,因為目前影像識別還是比較簡單,比如識別一個人,而理解一段影片里豐富的語義,電腦還做不到。
從複雜語義的角度來看,做自然語言反而條件更好,因為每一個詞都承載著豐富的語義,在影片里找很難。下一步,人工智慧的關鍵之一就是想辦法讓機器能夠理解人類的語言,這是自然語言理解在人工智慧學科中大概的地位。
智源將自然語言處理作為重大研究方向,並根據自然語言處理髮展的歷史脈絡設定研究目標。自然語言處理近幾年的進展和影像識別獲得進展所依賴的基本方法相差不多,就是深度學習。深度學習最顯著的特點是依賴大數據,必須要有海量的數據來訓練。自然語言處理相關的技術,比如語音識別,大家覺得這幾年發展還可以,機器翻譯不錯,但都是靠大數據驅動的。我們都看到了其中的好處,性能得到飛速提升,但問題是,因為大數據驅動深度學習是典型的「黑盒子」,雖然翻譯效果不錯,但其實機器對句子沒有任何理解。這樣的系統在處理複雜語義時非常脆弱,即使是非常簡單的日常辭彙,目前最先進的機器翻譯系統也無法做到準確翻譯。
數據和大知識/富知識雙輪驅動自然語言處理
下一步,孫茂松設定真正理解語言需要攻克人工智慧的難關,那就是知識驅動。大數據驅動的自然語言處理已經做得很好,大知識或者比較豐富的知識驅動的自然語言處理則剛剛起步,在智源的框架下,我們希望做到大數據和大知識/富知識雙輪驅動的自然語言處理,這相比目前人工智慧的大數據驅動方法也是重要的突破。

我們希望做這件事,但非常難,因為做這件事需要有基本資源,要有電腦可以操作的人類知識庫,但是目前中國沒有這樣的知識庫。雖然世界上有一些類似的庫,但是沒有達到真正能夠很好驅動自然語言處理的水平,特別是常識庫匱乏,雖然有一些從某個角度做的常識庫,但品質並不能得到所有人的認可。
在常識知識庫和世界知識庫建設方面,我們正在做一些嘗試,並希望在知識庫的基礎上研究新的大數據和大知識結合的人工智慧演算法,這對現有基本框架也是比較重要的。如果做成這件事將會是一種突破。
事實上,清華大學在世界知識圖譜的構建上已經有一些成果出來,比如 2019 年 1 月發布的世界知識圖譜——XLORE。

這個知識圖譜由清華大學電腦科學與技術系教授,知識計算領域專家李涓子團隊完成,融合了中英文維基、法語維基和百度百科,對百科知識進行結構化和跨語言鏈接構建的多語言知識圖譜,是一個中英文知識規模較平衡的大規模多語言知識圖譜。XLORE 中的分類體系基於群體智慧建立的維基百科的 Category 系統,包含 16,284,901個實例,2,466,956 個概念,446,236 個屬性以及豐富的語義關係(可能有更新)。

另外,清華大學還於今年開源了在中文世界有巨大影響力的語言知識庫——知網(HowNet),知網最早由已故的清華大學人工智慧研究院知識智慧研究中心學術顧問董振東和他的兒子董強先生(HowNet 科技公司技術總監,負責知網知識系統研發)在 20 世紀 90 年代設計和構建,至今已有近 30 年歷史,期間不斷迭代更新。
OpenHowNet 將知網的核心數據開源,並且開發了豐富的調用介面,實現義原查詢、基於義原的詞相似度計算等功能。知網構建了包含2000 多個義原的精細的語義描述體系,並為十幾萬個漢語和英語詞所代表的概念標註了義原。
HowNet 開源地址:https://openhownet.thunlp.org/about_hownet
孫茂松表示,知網並非完美,比如其中缺乏定量,知網中有很大的圖,所以他的團隊就使用了深度學習圖神經網路的方法,把專家定性的判斷和從文本數據中得到東西結合起來。孫茂松透露,目前該項目還在基礎準備階段,預計時機成熟之後,在這方面很快將會有一些成果在 GitHub 上開放出來。
為什麼常識問題遲遲得不到解決?
不同的人具有完全不同的知識,我們如何實現讓機器學習常識?
在孫茂松看來,雖然看起來似乎每個人都有不同的知識容量,但實際上人類的共同知識的核心是相對穩定的,比如人是動物的一種,但同時屬於有生命的動物。這一路的描述現在比較充分,但更豐富的知識,比如現在Google、Wikidata 等國際上開放的規模特別大的知識庫,會發現這些知識其實大而不強。舉例來說,比如 Wikidata 上關於關羽的描述只有他是中國三國時期蜀國的一位將領,他生於某年,卒於某年,兒子是誰。但我們熟知的關羽的事迹卻沒有形式化的描寫,比如關於過五關斬六將、走麥城等典故全部沒有,只是給你一篇文章。所以,它只能做粗淺的處理,無法做推理。
這類世界知識做得非常不夠。這些知識是客觀存在,把這些總結出來,全人類有很多共識的知識。
孫茂松表示,他期待做這樣的一個庫,至少做其中的一部分,比如我們做體現北京特色的庫比較深入。要做到這一點不能完全靠人工,文本中有關羽哪年從麥城開了哪個門趁夜逃走,這句話是有的,但是變成形式化,比如誰逃走了?逃走的地點在哪?何時逃走?需要能抽象出來,把所有句子變成一階謂詞邏輯表達式,這相當於變成了數學公式,之後就可以用數學邏輯的辦法來推理,可以做得更深入,這需要電腦能夠從這句話分析出這些結構,這就是自然語言處理的任務,話分析出一句話的結構,至少分析出主謂賓。
打造如此大的知識庫,會遇到很多問題,其中最大的難點是什麼呢?
孫茂松說道,因為知識庫不可能完全靠專家來寫,寫知識庫需要非常有水平的人,帶著一幫人做 10年、20 年,才有可能做得不錯。中國基本不具備這種條件,中國科研評價體系太急功近利了,雖然一再號召我們發揚」板凳干坐十年冷,文章不寫半句空」,但實際上現在真正坐冷板凳的人還是太少了。坐冷板凳的人還得有水平,沒水平坐一百年冷板凳也沒有用。
做知識庫需要對世界萬物準確的把握,世界萬物理論上都是相互關聯的,不可能全部描寫,但一定要抓主要矛盾,把重要關係找出來,這個需要有判斷,很不容易。最早做知識體系的是亞里士多德,他的《範疇論》把世界分成若干個範疇,研究語言的主語、賓語、謂語。
打造好的知識庫,有兩個可行的辦法,一個是我們把現有世界各方面的知識庫都拿來先做整合,看是否可以汲取一些養分。另一個辦法是從文本中挖掘知識庫,文本中有大量的知識,對知識進行形式化,找出主謂賓。這對於機器來說非常困難。這個事做出來以後,就有可能把互聯網上所有的文本形式化,變成類似謂詞邏輯表達式,相當於變成某種公式,這時就可以往知識庫里補充。如果這條道走通了,這個問題就會得到相當程度的解決,問題是機器分析出主謂賓的難度非常大。
比如在維基百科中找「關羽」的詞條非常難,單句處理很難,有時幾句話在一塊,主語省略了就會處理不好,再比如中國的流水句不如英文的語法嚴格,現在瓶頸就卡在這裡。「是否能達到我們的設想,要看自然語言處理技術能得到多大的幫助,這有很大的挑戰性,我們不敢說一定能做出來,但會往這個方向努力,我們有這個認識,目標是應該做到這個程度,才有可能解決問題,但能否做成不太好說,因為這既有難度又有規模上的挑戰。」孫茂松說道。
算起來,讓機器具有知識這件事從 60 年代就存在了,為什麼這個問題直到現在也沒有解決?為什麼學知識這麼難?除了缺乏資料庫,還有什麼問題在阻礙?
對於這個問題,孫茂松答道,這有點像雞生蛋,蛋生雞,自然語言處理理解得好,需要有知識庫,但是知識庫又需要好的開放環境,需要自然語言處理的幫助,從工程角度就遭遇瓶頸了。現在最好用的知識庫是 WordNet,這個同義詞體系知識庫由普林斯頓大學很有名的認知心理學家喬治·米勒帶領團隊做了一二十年的成果,但是它的刻劃只是世界知識的一部分,雖然覆蓋了幾乎所有英文辭彙,但是一個靜態的描寫,這些關係里缺少 event,「走麥城」這事它都描寫不了,動態資訊很少。在中國,靠人堅持一二十年做這種事情太難了。
所以,我們希望機器來做,人來輔助,但這也不可能一蹴而就,需要分階段來進行,本階段可以讓機器可以做得好一點,人來幫忙,經過迭代才有可能做好。
「黑箱」並不是貶義
現在有一些學者認為,人類很多發明理論之前都先進行了實踐,比如飛機發明之後才有空氣動力學,他們認為這是一個合理的過程。深度學習的「黑箱」性質同理,這會給研究和應用帶來什麼風險?

孫茂松認為,」黑箱」並不是不好,1950 年圖靈提出的圖靈測試就是黑箱測試。如果我們在那時一定要把人腦的機制搞清楚才做人工智慧,現在人工智慧也不會有發展。實際上「黑箱」這件事並不是貶義的,是在目前階段,搞不清人腦時只就看外特性,外特性具有智慧那就是智慧。圖靈測試偉大的意義在於我不需要搞清人腦,也可以做人工智慧,這是它最重要的意義,可能很多人沒意識到這點。「黑箱」固然有問題,是不得已而為之,但搞清人腦的機制再做研究,肯定會更深刻。包括影像識別很容易被攻擊,這就是「黑箱」,端到端的情況千變萬化,影像再多,也會也例外,即使有正確識別率達到 99%,也會有 1% 的例外,那 1% 的例外如果出現某種問題,可能就很糟糕。
他還提到,Nature 最近發布了一篇文章,討論為什麼 AI 這麼容易被愚弄,比如在 Stop 牌子上貼上 tag AI 系統就會識別錯誤。和人腦不同,人腦的機制會保證識別出上面貼了東西。由於」黑箱」,深度學習並無法理解,如果之前訓練過貼紙條,告訴系統這是干擾,它就能學到。但是這種例子無法窮舉,如果有知識庫,與其中的知識建立起聯繫,就會有系統性的解決方法,否則這個問題解決不了。
用建立知識庫的方法訓練機器和演算法,在使用「黑箱」之前要優先考慮常識。然而,常識中包含一些全人類有共識的常識,但同時也有一些全人類沒有共識的常識。所以,構建適合全人類的知識庫時應該怎麼解決這個問題?另一方面,想要訓練機器閱讀材料,材料應該怎麼選取?
對此,孫茂松表示,人類知識核心部分是比較穩定的,所謂「常識」。以上所說的實際上已經超出了常識的範圍,相當於觀點。我們要把常識部分刻划出來,比如你去餐館,不管全世界哪個餐館,你要點菜、上菜、吃完之後付賬,不付賬就跑人家肯定不幹,這就屬於常識。
而觀點是靈活的,為什麼我們要做「雙輪驅動」?因為觀點難以窮盡,且因時而變,因人而變,因地而變,這就要靠大數據,從數據文本里挖。光靠知識肯定不行,核心知識覆蓋面不夠,也可能幹巴巴的,藏在後面。我們處理很多事情在用知識時並沒有把它推到前台,需要兩方面結合,你說的觀點那類東西要在大數據里體現。
之前,孫茂松曾經表示,人工智慧下一步需要研究的重點是機器的可解釋和可理解的能力,包括決策解釋的能力,但這實際上很難實現。字節跳動 AI 實驗室主任李航博士在一篇文章中說道,可解釋性對應用是很依賴的,不是所有的應用都需要可解釋性,比如醫療等關乎生命的重要場景需要可解釋性,但是其他的應用不需要可解釋性一樣可以做到好的效果。而關於可解釋性的問題可以放在下一代的人工智慧來解決。
對於這個觀點,孫茂松表示贊同。他認為,比如小數據,小數據解決問題時系統一定要有可解釋性。大數據是基於發現兩個事物之間的關聯,關聯有時不太好講道理。小數據要起作用,通常需要有知識,有知識就有可解釋性。我要把黑箱子打開變成灰的,希望小數據起作用,希望它具有推理能力,具有可解釋性,這幾件事大概是相通的,只從幾個不同的角度來描寫。這是下一代人工智慧的核心。
可解釋性、可理解性和打開「黑箱」的意思差不多。端到端的系統沒有理解,比如機器翻譯看起來效果似乎不錯,但其實並沒有理解,我們稱之為無理解的智慧,它其實只是學習了函數,說穿了就像小學我們學了 Y=3X1+5X2,其實深度學習本質上就是學了一個函數,X1、X2 是輸入,Y 是輸出,如果給了公式就可解釋了。深度學習的好處就是深度神經網路不需要給出函數形式,事實上你也給不出來,沒有函數形式,好像就沒法解釋,到底是什麼東西在起作用,解釋性會變差,但也不是完全沒有。深度學習里有一個注意力機制,可以做一點簡單的解釋。
學習神經網路可以歸納出它是某種函數形式,這就具有了可解釋性,但是機器現在肯定做不到,下一代人工智慧也許能做得好一點。目前人工智慧的研究熱點轉到了第三代人工智慧,也可以稱之為下一代人工智慧。但是接下來他坦承做到這一點很難,這些問題解決了,基本上機器真的可以具有和人類差不多的智慧,對人也許真的會有威脅。
用小數據解決隱私問題很難,小數據沒有通用工具
現在採集大數據可能或多過少地引起隱私方面的憂慮,如果採集大數據隱私問題不可避免,有些人就會想,是否可以改用本機的處理能力離線運算,或者用更小的數據集在文檔庫中運算,這個方向是否可行?另一方面,在目前的研究現狀下,如果使用更小的數據集可能會造成精度的下降,如果有人想致力於從保護隱私的角度儘可能地縮小數據集產出同樣或類似的結果,這個工作是否很困難?
孫茂松認為,數據隱私問題比較突出的是在商業公司,服務和人形成了一個閉環,就會涉及到用戶的隱私。而用小數據的思路實踐起來很困難。他總結到,目前這一輪大家用的比較火的基本都是基於大數據,沒有大數據根本不成。小數據是研究熱點,在西方要拿到病人的病歷很困難,需要通過各種許可,即使拿到了各種風險評估,也要想如何把學術研究利益最大化,做出好的成果。這必須是小數據驅動,小數據涉及知識、推理、判斷,這些都是這代人工智慧最大的短板。
從宏觀角度來說,現在大家都在研究小數據。如果取得成功,一般都是在特定領域,針對特定問題,有了相當的知識,在知識的引導下做小數據,才有可能成功。目前沒有一個通行的公認的解決方案或工具,不像深度學習,一些基本的工具是全世界都有的,比如影像識別一般用 CNN 卷積神經網路,語言處理用 LITM、GPT2 等,這些通行的東西放在任何語言問題中都能用。但小數據不行,小數據一定與知識有關,有了一點小數據,沒有知識也做不好。小數據要起作用一定要有知識,不是宏大無比的世界知識,而是領域知識,要有針對某個問題的知識才能解決好。
深度學習紅利享受得差不多了
現在,很多人似乎都開始反思深度學習的作用究竟是否被誇大了,對此,孫茂松表示現在倒不至於進入反思的階段,而是走到現在,深度學習的好處我們基本上已經享受得差不多了,深度學習的不足不是做得不好,而是因為這個方法天然就有某種缺陷。到現在這個階段,大家發現了這個方法似乎不太行,比如機器翻譯,Google基本上把全世界的雙語語料都整全了,按理說功能應該非常強大,但實際上還是解決不了翻譯 Box was in the pen 的問題。翻譯要達到信達雅,現在連信都做不到,達雅更不用說。
「沒有知識庫就解決不了這個問題,或者想別的招來解決,但深度學習似乎真的解決不了端到端的問題。端到端的功能非常強大,但是有時又不像我們想像的那麼強大,這真不是反思,是碰壁了就得思考了。」
NLP學術研究VS工業界
當前中國在自然語言處理學術研究的現狀究竟如何?做得好和不好的點在哪裡?
「中國自然語言處理從研究角度平均水平我認為在國際上應該是在一線,在最好之列。」孫茂松說道,「但自然語言處理領域缺少像影像領域中李飛飛的 ImageNet 那樣的重大進展。」
孫茂松坦承,自然語言處理中有兩個重點,一個是語音識別,一個是機器翻譯,這兩件事都是企業在往前推的。而學術研究方面,如果從發表高水平論文的定量指標這個角度來看,中國做得不錯,但是這個領域真正的突破還是要看效果,不能光看論文,這方面學術研究相對較弱,反而是企業在引領潮流,因為它需要強大的計算能力。從研究角度來說我們做得還不錯,並不意味著我們整體做得不錯。在NLP 領域,我們與國際最好的學校差距不大,反而是語義資源建設方面還有差距,比如美國有 WordNet,我們沒有,當然我們有 HowNet,但是 HowNet 不是大學做出來的。
越來越多的學術界人才湧向產業界,尤其是近年來這一趨勢越發明顯。GPU資源、資料庫資源等是否是工業界吸引多學者到工業界的主要原因?
孫茂松說道,全世界都面臨這個問題,產業界待遇高是一條,但他認為這不是最重要的。最重要的是在公司里往往能夠接觸到真實的問題,公司有大數據的支援,在內部用可以規避隱私的問題,有強大的計算資源。美國的大學同樣沒有Google的資源。而且更重要的是做出的成果以後可以真正用上,有成就感,這是吸引很多高校老師投身工業界的重要原因。「我們確實面臨這方面的壓力。「
很多成果現在都是工業界做出來的,這個趨勢會延續下去嗎?
對此,孫茂松認為,工業界在享受學術界的創新,0 到 1 這個事基本不是工業界做的,比如深度學習就是大學做的。
「1 到 2 的事情大學也在做一些,再往後走,工業界就上手了。大學真正要立住,要在 0 到 1這個階段發力,2 到 N,你是做不過企業的。0 到 1 是原創,1 到 3 還存在一些技術科學的問題搞不清楚。我們現在做得比較多的是 1 到 3,工業界也開始做 1 到 3 了,這樣大學和工業界比就沒有太大的優勢。這時大學就應該放手,不去做 3 到 N。問題是 1 到 3,3 到 N 糾結到一起,大學如果沒有做 0 到 1 就麻煩,相當於在競爭中各方面都處於劣勢。所以,大學應該在 0 到 1 方面起作用。這就涉及到更大的問題人才培養,涉及到錢學森之問了。」孫茂松答道。
(*本文為AI科技大本營整理文章,轉載請微信聯繫1092722531)


