復旦大學教授邱錫鵬:NLP 任務中有哪些巧妙的 idea?

  • 2019 年 12 月 9 日
  • 筆記

閱讀大概需要5分鐘 跟隨小博主,每天進步一丟丟

整理:達觀數據

在知乎中自然語言處理話題下有一個非常有意思的話題 "NLP 任務中有哪些巧妙的idea?" ,目前已經有1188+關注,40000+瀏覽量,今天就為大家分享下獲得最高點贊的答案,復旦大學邱錫鵬教授的回答:

這個問題很有趣!看了下目前的回答都是深度學習之後的,我就回答幾個深度學習之前的吧:

先從語義表示說起,個人覺得都是簡單並且巧妙的想法 ( 但其背後的理論不一定簡單 )。

1. 分佈式假設 ( Distributional Hypothesis )

"Linguistic items with similar distributions have similar meanings."

直白點就是,一個詞的語義可以用它的上下文表示。

對 NLP 來說,個人覺得分佈式假設是來自語言學的最有價值的 "理論" 之一。

2. 詞袋模型 ( Bag-of-Words )

將一篇文檔看作是一個詞的集合,不考慮語法,甚至是詞序信息也都拋棄了。

BoW 模型解決了用機器學習來做 NLP 的一個痛點問題:怎樣把一個變成的文本序列轉換為定長的向量。

相關擴展:N-gram,TF-IDF 等。

3. 潛在語義分析 ( Latent Semantic Analysis )

基於上面的分佈式假設和詞袋模型,我們可以構建一個詞-文檔矩陣 ( term-document matrix )

。這個矩陣

很有意思,每一列為一個文檔的表示 ( BoW 向量 ),每一行為一個詞的語義表示 ( 分佈式假設,其中上下文是以文檔為基本單位 )。這樣我們就可以用

表示文檔和文檔之間的關係,用

表示詞與詞之間的關係。這個矩陣還可以進行 SVD 分解,得到詞和文檔的稠密向量表示,可以發現潛在的語義信息 ( 比如主題等 )。

4. 概率主題模型 ( Probabilistic Topic Models )

概率主題模型比詞袋模型多引入了一個 "主題 ( Topic )" 作為隱變量。詞和文檔的之間關聯變成了:文檔 -> 主題 -> 詞。這個想法合情合理,聽上去就更好。如果你覺得哪裡不好,又可以魔改。概率主題模型的數學基礎 ( 概率有向圖模型 ) 十分漂亮,並且基於吉布斯採樣的推斷簡單到不可思議,甚至不需要圖模型的知識就可以理解。PTM 是前深度學習時代 NLP 領域的一個大寶礦 ( Shui Keng )!

5. 基於 BMES 的中文分詞或基於 BIO 的 NER/Chunking

BMES 是 Begin/Middle/End/Single 的縮寫,代表所標記的字符是一個詞語的開始/中間/結尾/單字詞。

BIO 是 Begin/Inside/Outside 的縮寫,表示所標記的詞是一個實體名的開始/內部/外部。

這種標記將帶有分割性質的 NLP 任務轉換為序列標註任務,可以使用 HMM、CRF 等成熟的機器學習模型。

6. 基於 PageRank 的 TextRank

PageRank 本身非常巧妙了,TextRank 更是巧妙地將 PageRank 應用到 NLP 中的詞排序或句子排序上面,比如關鍵詞抽取、文本摘要等。

參考資料

1. "Linguistic items with similar distributions have similar meanings."

https://en.wikipedia.org/wiki/Distributional_semantics

2. term-document matrix

https://en.wikipedia.org/wiki/Term-document_matrix

原文鏈接:

https://www.zhihu.com/question/356132676/answer/901244271