時至今日，NLP怎麼還這麼難！

2019 年 12 月 25 日
筆記

作者 | 劉知遠

在微博和知乎上關注自然語言處理（NLP）技術的朋友，應該都對#NLP太難了#、#自然語言理解太難了#兩個話題標籤不陌生，其下彙集了各種不僅難煞電腦、甚至讓人也發懵的費解句子或歧義引起的笑話。然而，這些例子只是讓人直覺電腦理解人類語言太難了，NLP到底難在哪裡，還缺少通俗易懂的介紹。最近剛做完會議投稿，這裡花些時間總結下我對這個問題的認識，期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議，未來爭取不斷更新。

此小號非彼小號

自然語言理解本質是結構預測

要搞清楚自然語言理解難在哪兒，先看自然語言理解任務的本質是什麼。作為人工智慧關注的三大資訊類型（語音、視覺、語言）之一，自然語言文本是典型的無結構數據，由語言符號（如漢字）序列構成。要實現對自然語言的表意的理解，需要建立對該無結構文本背後的語義結構的預測。因此，自然語言理解的眾多任務，包括並不限於中文分詞、詞性標註、命名實體識別、共指消解、句法分析、語義角色標註等，都是在對文本序列背後特定語義結構進行預測。例如，中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標識，將句子中每個詞的邊界標記出來，相當於添加了某些結構化語義資訊到這個文本序列上。

NLP典型任務：詞性標註、命名實體識別、共指消解、句法分析 [1]

面向不同NLP任務，人們制定不同的待預測的語義結構空間：文本分類是最簡單的情形，即預定義的類別體系，最常見的如情感分類是postive、neutral、negative三類；中文分詞是詞邊界的標記；詞性標註是句子中每個詞的詞性標籤（如名詞、動詞、形容詞、副詞、連詞、介詞等）；命名實體識別是標記哪些詞（或多詞）是實體名及其實體類型（如人名、地名、機構名等）；共指消解是標記哪些詞在做指代以及指代的是前面出現的哪個概念或實體；句法分析則是將句子背後的句法樹結構或依存結構預測出來。

自然語言理解的關鍵是語義表示

不過，以上NLP任務都只是在不斷「逼近」對文本的理解，是對文本語義的局部表示。要實現對文本的完整理解，需要建立更完備的語義結構表示空間，這種更完備的語義表示經常成為上述NLP任務進行結構預測的依據。

在統計學習時代，一般採用符號表示（Symbol-based Representation）方案，即每個詞都看做互相獨立的符號。例如，詞袋模型（Bag-of-Words，BOW）是最常用的文本表示方案，忽略文本中詞的出現順序資訊，廣泛用於文本分類、資訊檢索等任務。N-Gram也是基於符號表示的語言模型，與BOW模型相比，將句子中詞的出現順序考慮了進來，曾在機器翻譯、文本生成、資訊檢索等任務中廣泛使用。

到深度學習時代，一般採用分散式表示（Distributed Representation或Embeddings）方案，每個語言單元（包括但不限於字、詞、短語、句子、文檔）都用一個低維稠密向量來表示它們的語義資訊。分散式表示是深度學習和神經網路的關鍵技術。分散式表示方案是受到了人腦神經機制的啟發，基本思想是[2]：

Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities.

很大程度上，這種表示方案與索緒爾對語言符號的任意性和結構主義的觀點不謀而合。從計算角度來看，NLP很多應用任務就是在判定兩個語言單元間的語義相似度，如資訊檢索是在短語（查詢詞）和文檔之間，文檔摘要是在句子和文檔之間，分散式表示也為在不同語言單元之間計算語義相似度提供了統一的語義表示基礎。

由於忽略了對詞語內部語義或詞序資訊的考量，基於符號表示的詞袋模型或N-Gram失之粗略，也受到數據稀疏問題的影響；基於分散式表示的深度學習雖然極大提升NLP性能，卻更多只能作為NLP內部表示，可解釋性不夠。實際上，也有很多學者提出Semantic Parsing任務，探索各類對文本語義更完整的表示和建模方案，仍未得到令人滿意的結果。

總之，自然語言理解任務的本質是結構預測，關鍵則是對語言單元的語義表示能力。那麼，自然語言理解為什麼難呢，這需要我們先看一下，自然語言都有哪些特點。

自然語言有哪些特點

自然語言是人類在認識世界和改造世界的過程中產生的，歸根到底是自然界的產物，因此被稱為自然語言。自然語言本身受到人腦語言能力的支配，伴隨著人類社會而演化，作為人類使用的最龐雜的符號系統，有很多特點。

創新性

作為人類資訊交流的工具，自然語言需要具有強大的創新活力，隨時引入對最新概念、表述和意義的表達能力。這方面最常見的就是新詞以及舊詞新意的出現。例如，有個笑話就是母女二人對「潮」和「曬」產生的不同理解，女兒本意是讓母親幫忙在太陽下曬發潮的被子；而母親卻理解為在朋友圈「曬」女兒的被子讓大家看是不是很「潮」。可見，這位母親大人本人還是很「潮」的，熟練掌握了兩個詞的的最新意思。

潮和曬

人類語言的創新活力伴隨著互聯網發展和在線交流的日益密切而更加明顯。北京大學邵燕君等學者主編的《破壁書》應該是近年這方面的集大成之作，有興趣的讀者可以讀下。我理解，這個書名「破壁書」，也算化用《三體》「破壁人」的一個新詞。

解碼二次元新詞的《破壁書》

新詞和舊詞新意等都擴展了人類語言的表意空間，也擴展了自然語言理解進行結構預測的語義空間。而這種擴展，帶有較強的隨意性，缺少嚴格的描述資訊或足夠的數據支援，從而為自然語言理解帶來挑戰。

遞歸性

以語言學巨擘喬姆斯基為代表的學者認為，遞歸性（recursion)是人類語言的最重要的特性[4]，這也是喬姆斯基提出轉換生成文法的內在動機。雖然，遞歸性是否為人腦先天具備的語言能力有很多爭論，至少從漢語英語兩大語言來看，語言表現出的遞歸性特點不言而喻。

例如最近中美之間出現的這則有意思的表述，就集中反映了語言遞歸性：S1=」美國干涉中中國政「是一個擁有完整主謂賓結構的句子，被作為另外一個句子S2=」中國抗議 x的法案「中」法案「的定語x；而S2又被作為了S3=」美國抗議 y 是在干涉內政「中」抗議「的賓語y。

遞歸性帶來的語言套娃現象-1: 抗議

遞歸性帶來的語言套娃現象-2：吉尼斯世界紀錄

正是這種遞歸性，為語言帶來精準而強大的表述資訊和思想的能力，隨便翻翻那些著名的哲學著作，充滿著帶有複雜遞歸結構的長句。不過，這種精確表達能力是以理解更加費力為代價的，而且遞歸性也為一句話帶來更多的語義理解的可能性，例如」咬死獵人的狗「，到底是咬死了獵人，還是咬死了狗，至少有兩種可能的理解。

也可以看到，一旦句子包含了多層嵌套，對人而言理解起來就變得十分困難，很少有人會用這麼複雜的結構說話。例如，政府部門層層轉發通知導致的」通知的通知的通知「的標題，讀起來就非常費力。所以，在自然語言理解實踐中，單純由於遞歸性造成的困難並不是那麼大。

紅頭文件的語言套娃現象

多義性

自然語言是一個資訊傳遞系統，需要兼顧訊號發出者（說話人、作者）和訊號接收者（聽話人、讀者）的效率。如果人類大腦中每個事物都要對應一個獨一無二的字詞符號，無疑會大幅提高人們的學習、記憶和使用語言的成本。因此，語言中存在大量同音字和一詞多義的現象，即一個字或詞往往兼顧多個詞義，當然，也對應地需要人們根據話語或文本的語境進行消歧處理，才能正確理解其語義。這種多義性，也成為各類語言幽默的主要來源。

自然語言有不同粒度的語言單元，如字、詞、短語、句子、語篇，乃至文檔互聯形成的萬維網。多義性普遍存在於各粒度的語言單元上。例如，上面例子中的」潮「和」曬「兩字就有兩種意思，」小號「則是典型的一詞多義，短語層面如」metal fan「也至少有兩個意思。

Metal Fan

句子層面的多義性也不少見，如」能穿多少穿多少「，在夏天和冬天各有截然相反的意思。類似形式的語言笑話還不少：

單身的原因有兩個，一是誰都看不上，二是誰都看不上。女孩給男朋友打電話：如果你到了，我還沒到，你就等著吧；如果我到了，你還沒到，你就等著吧。單身的原因：原來是喜歡一個人，現在是喜歡一個人。

字面意思的」我想開了「。

自然語言作為人們日常交流的主要方式，相信每個人都有在交流中出現誤會鬧出笑話甚至衝突的經歷，很多時候就是由於歧義造成雙方理解產生誤差導致的。

」你好不好意思啊「還是」你好，不好意思啊「

主觀性

即使語言的多義性得到了正確消歧，語言的字面意思得到了準確理解，同樣的話語或文本，仍然會導致人們產生不同的理解，引發不同的思緒。這是因為，每個人都是在認識世界和與外界交互的具體過程中習得語言的，所以人們對語言的理解不可避免受到個人經歷和認知水平的影響，帶有強烈的主觀性。

這種主觀性反映在很多方面，以作者與讀者間的理解差異為例，常說」一千個讀者就有一千個哈姆雷特「，莎士比亞在寫這個劇本時，他心目中恐怕有一個確切的哈姆雷特形象以及他希望表達的思想；但讀者在閱讀時，則不可避免會受到自身經歷和認知的影響，而產生不同的理解。這有如一個正態分布，也許作者要傳遞的資訊就在均值附近，而讀者的理解則會各有偏差。這也是為什麼，同樣一部世界名著，有的人就會引起共鳴，有的人覺得索然無味。

中文世界也常說，言有盡而意無窮，特別是在詩歌中，往往寥寥數字，作者也許本意有限，而不同讀者會產生不同層次的解讀。這也是為什麼。再如下面融合多種元素的詩歌：無人機系荔枝來，字面意思正如圖所畫，而讀者如果了解杜牧原詩以及廣東人容易將ZHI、SHI發音為JI、XI的特點，則更能會心一笑。

在人們日常對話交流中，這種主觀性比比皆是。例如，同樣是說」今天好冷啊」，字面意思沒有任何難解之處，但如果是女朋友剛進屋說的，那就得趕緊打開空調；如果是宿舍同學說的，恐怕就要嘲笑他為啥穿這麼少了。所以，戀愛關係、外交辭令、商務談判都是需要清醒洞悉對方「言外之意」的危險地區呀。

這都是什麼意思？

心理語言學等領域的很多研究表明，人的心理狀態（如性格等）會反映在語言表達的蛛絲馬跡中。對此有興趣可以閱讀美國學者James Pennebaker的相關成果，他甚至構建了一個詞典Linguistic Inquiry and Word Count（LIWC）嘗試建立人們使用詞語與心理狀態的對應關係 [5]。

社會性

人類是社會動物，社會性既是人類的特性，也深刻反映在人類語言中。語言並非固定不變，而是經歷了漫長演化。人類的集體生產和生活，對資訊交流和記錄產生的需求，不斷改造著人類語言。全世界的人類早期聚居於不同大洲和地區，互相隔絕，各自的社會形態和生活特點，深刻地影響了不同語言的產生和演化，產生了現在形態各異的人類語言，例如英語等是典型的拼音語言，而漢語則是音義兼顧語言的代表。現代語言學也是從研究總結不同語言體系的特點而發展起來的。作為語言學的分支，演化語言學就在研究人類語言在發音、字形、詞法、句法等多個方面的演化過程，而社會語言學則重在研究社會形態與人類語言之間的互相影響的規律。

語言系統受到社會發展的塑造。隨著互聯網和移動設備的廣泛應用，人類之間的交流和聯繫，比以往任何一個時代都更加緊密，這也反映在人類語言的高速演化，新詞和舊詞新意層出不窮。不同學科的高速發展，也為語言注入大量專業術語。使用不同語言的人們緊密聯繫，也為語言引入大量音譯等形式的外來詞。

語言使用也深刻反映社會形態。人們在不同的社交場合會切換不同的語言風格，如在做公開報告時和在朋友聚會時，語言風格明顯不同，庄諧相異。在社交場合，人們也會將有些讓人恐懼厭惡或者不雅晦氣的概念作為禁忌或避諱詞語，進而使用委婉曲折的說法，例如大便改叫出恭或解手，死亡改叫作古歸西或見馬克思等，中外皆同。

社會語言學還有一個有趣的話題，是探究語言使用與社會地位之間的關係，曾提出語言協調理論（Language coordination），即不同社會地位的人在相互交流時，地位低的人會從語言風格上適應地位高的人，而地位高的人則不會主動調整自己的語言風格適應別人，這個理論在2012年得到了定量驗證 [6]。

最近的定量研究也表明，大規模文本中含有人類社會存在的刻板印象、政治偏見等問題，側面反映了人類社會對語言的影響 [7]。美國著名認知語言學家萊考夫甚至認為，不同黨派的政治家甚至會通過語言使用來影響政治議題的設置 [8]。

自然語言理解難在哪

正是由於其創造性、遞歸性、多義性、主觀性和社會性等特點，既讓人類語言具備強大的表達力和生命力，同時呈現出非常複雜而難以捉摸的圖景。單從讓電腦理解人類語言的角度來考慮，問題難點也許可以歸結為如下幾個方面。

結構語義表示空間構建

很多學者通過世界、心智和語言的三角形來表述語言的地位，這在索緒爾提出的能指和所指的概念中已初見端倪，哲學中的認識論和語言哲學也是探討這三者的關係。自然語言理解還沒有能力考慮哲學關心的這些問題，不過也能看出，語言作為人類認識世界的產物和工具，必然不是對客觀世界的簡單映射，而帶有人類主觀認識的色彩，也受到人腦機能的影響和約束。

各種語義三角

讓電腦理解人類語言，需要建構結構化的語義表示空間，只有這個空間的語義表示能力能夠與人類心智相媲美，才有可能將人類通過語言要表達的意義進行完美表示和解讀。同時，這個語義表示空間還要接受客觀世界的校正，消除人類認知中存在的偏見和缺陷，讓人工智慧更好地服務人類社會。

現在的語義表示方案中，符號表示過於粗略，無法考慮語言符號背後反映的豐富語義資訊；而分散式表示雖然具有更強大的表示能力和自由度，但目前只能通過特定任務下的數據學習，只能建立滿足特定需求的語義表示，一方面缺少可解釋性，魯棒性差，另一方面通用性和遷移性不足。這些與人腦展現的語義表示能力相比，還有千里之遙。

未來，需要探索更強大的結構化語義表示空間。例如，是否可以將分散式表示與符號表示相結合，既保留分散式表示的泛化能力，又兼顧模組化和層次化符號表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進展的突破口之一。

我們課題組正在致力於構建和利用各類型知識圖譜的研究，也算是在這個方向上的努力。通過構建常識知識、語言知識、世界知識、認知知識、領域知識等各類型知識圖譜，希望建立起更強大的結構化語義表示空間。

不同類型知識是理解人類語言的鑰匙

多模態複雜語境的理解

人類並非孤立地使用語言，語言使用需要考慮其複雜的語境。以語言的多義性為例，存在多義的語言單元，總需要其外部的複雜語境資訊進行消歧：字的多義性至少需要所組成的詞來消歧；詞的歧義性至少需要所在的句子來消歧；句子的意思至少要放在語篇或對話語境中，甚至需要複雜的世界知識來幫助理解。

語言單元的多義性需要其外部複雜語境資訊進行消歧

這種語境往往是開放的，也是多模態的，如上下文句子的文本訊號、對話者的語氣等語音訊號、所處環境的視覺訊號、甚至其他無法名狀的各類資訊。實際上，很多歧義產生的笑話，在實際語境下並不會讓人產生錯誤理解。例如下圖」三餐二樓歡迎新老師生前來就餐「，雖然從句意上有」歡迎新老師生前來就餐「這種理解的可能性，但在這個場景下其實不可能是這個意思。

三餐二樓歡迎新老師生前來就餐

再如」無線電法國別研究「，雖然從句意上有」無線電法國別研究「這種理解的可能性，但作為一本專著的書名，只可能是」無線電法國別研究「這種理解。

無線電法國別研究

只是對於電腦而言，如何有效理解語言所處的開放複雜語境，從而實現對語言語義的準確理解，仍是挑戰性難題。這既與尚未建立有效的結構語義表示空間有關，也與電腦還不能像人那樣進行跨模態的高效學習和理解有關。如何有效識別語言理解所需的語境資訊，並建立跨模態多通道的建模，依然任重道遠。

小結

這裡總結了我對自然語言理解到底難在哪兒的看法。自然語言理解作為人工智慧的核心問題，正引起越來越多研究者的興趣，在各類任務上努力探索，自然語言處理最重要的國際學術年會ACL 2020共有3000多篇投稿，受關注程度可見一斑。

自然語言理解大致有不同的層次，我總結研究路徑可以大致為：字斟句酌，實現句級消歧和精準理解；瞻前顧後，初步實現文本內的複雜語境建模，建立篇章或對話理解；博學多識，引入更多外部知識，實現跨模態更複雜語境的理解；善解人意，考慮語言的社會性和主觀性因素，實現更有」人性「的自然語言理解；冥思苦想，將語言作為思想工具，實現從語言理解到語言使用的跨越，實現創作和規劃的能力。

語言是人類文明的象徵，是人類智慧的集中體現，因此得到非常多學科從不同角度的思考和關注，如語言學中對句法、語義等問題建立的理論，心理語言學對人類語言習得的探討，語言哲學對語言與世界關係的探討，認知語言學對隱喻和範疇等問題的探討，神經語言學對人腦的語言功能的研究，漢語言學界對於漢語流水句、」王冕七歲上死了父親「等語言現象的研究，等等。這些，都對人類語言不同側面的特點進行了卓有成效的考察。

自然語言理解的目標是讓電腦掌握人類語言能力，需要充分了解和融合這些對人類語言的已有探索成果，以逼近人類語言的本質，才能更好地設計結構化語義表示空間，實現多模態複雜語境的理解，像人那樣智慧地理解和使用語言。希望有朝一日，電腦也能讀懂#NLP太難了#、#自然語言理解太難了#兩個話題標籤下的那些話。

自然語言理解也不會

參考文獻

[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.

[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.

[3] 索緒爾[瑞士]. 普通語言學教程. 北京: 商務印書館, 1980.

[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.

[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.

[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.

[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.

[8] 喬治.萊考夫[美]. 別想那隻大象. 浙江人民出版社, 2013.

原文鏈接：

http://url.cn/51BfOsp

（*本文為AI科技大本營轉載文章，轉載請聯繫作者）