NLP任務中有哪些巧妙的idea?
- 2019 年 11 月 26 日
- 筆記
作者:邱錫鵬
鏈接:https://www.zhihu.com/question/356132676/answer/901244271
先從語義表示說起吧,個人覺得都是簡單並且巧妙的想法(但其背後的理論不一定簡單)。
1. 分散式假設(Distributional Hypothesis)
"Linguistic items with similar distributions have similar meanings."
參考:https://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Distributional_semantics
直白點就是,一個詞的語義可以用它的上下文表示。
對NLP來說,個人覺得分散式假設是來自語言學的最有價值的「理論」之一。
2. 詞袋模型(Bag-of-Words)
將一篇文檔看作是一個詞的集合,不考慮語法,甚至是詞序資訊也都拋棄了。
BoW模型解決了用機器學習來做NLP的一個痛點問題:怎樣把一個變成的文本序列轉換為定長的向量。
相關擴展:N-gram,TF-IDF等
3. 潛在語義分析(Latent Semantic Analysis)

4. 概率主題模型(Probabilistic Topic Models )
概率主題模型比詞袋模型多引入了一個「主題(Topic)」作為隱變數。詞和文檔的之間關聯變成了:文檔->主題->詞。這個想法合情合理,聽上去就更好。如果你覺得哪裡不好,又可以魔改。概率主題模型的數學基礎(概率有向圖模型)十分漂亮,並且基於吉布斯取樣的推斷簡單到不可思議,甚至不需要圖模型的知識就可以理解。PTM是前深度學習時代NLP領域的一個大寶礦(Shui Keng)!

5. 基於BMES的中文分詞或基於BIO的NER/Chunking
BMES 是Begin/Middle/End/Single的縮寫,代表所標記的字元是一個詞語的開始/中間/結尾/單字詞。
BIO是Begin/Inside/Outside的縮寫,表示所標記的詞是一個實體名的開始/內部/外部。

這種標記將帶有分割性質的NLP任務轉換為序列標註任務,可以使用HMM、CRF等成熟的機器學習模型。
6. 基於PageRank的TextRank
PageRank本身非常巧妙了,TextRank更是巧妙地將PageRank應用到NLP中的詞排序或句子排序上面,比如關鍵詞抽取、文本摘要等。
