斯坦福NLP課程 | 第12講 – NLP子詞模型

2022 年 5 月 16 日
筆記
cs224n, LSTM, nlp, RNN, 子詞模型, 斯坦福, 自然語言處理, 自然語言處理教程 | 斯坦福CS224n帶學與全套筆記解讀

作者：韓信子@ShowMeAI，路遙@ShowMeAI，奇異果@ShowMeAI
教程地址：//www.showmeai.tech/tutorials/36
本文地址：//www.showmeai.tech/article-detail/249
聲明：版權所有，轉載請聯繫平台與作者並註明出處
收藏ShowMeAI查看更多精彩內容

ShowMeAI為斯坦福CS224n《自然語言處理與深度學習(Natural Language Processing with Deep Learning)》課程的全部課件，做了中文翻譯和注釋，並製作成了GIF動圖！視頻和課件等資料的獲取方式見文末。

引言

授課計劃

A tiny bit of linguistics / 語法學基礎知識
Purely character-level models / 基於字符粒度的模型
Subword-models: Byte Pair Encoding and friends / 子詞模型
Hybrid character and word level models / 混合字符與詞粒度的模型
fastText / fastText模型

1.語法學基礎知識

1.1 人類語言的聲音：語音學和語音體系

語音學 (honetics) 是音流無爭議的 物理學

語音體系 (Phonology) 假定了一組或多組獨特的、分類的單元：音素 (phoneme) 或者是獨特的特徵
- 這也許是一種普遍的類型學，但卻是一種特殊的語言實現
- 分類感知的最佳例子就是語音體系
  - 音位差異縮小
  - 音素之間的放大

1.2 詞法：詞類

傳統上，詞素 (morphemes) 是最小的語義單位

\[\left[\left[\text {un}\left[[\text { fortun }(\mathrm{e})]_{\text { Root }} \text { ate }\right]_{\text { STEM }}\right]_{\text { STEM }} \text {ly}\right]_{\text { WORD }}
\]

深度學習：形態學研究較少；遞歸神經網絡的一種嘗試是 (Luong, Socher, & Manning 2013)
- 處理更大詞彙量的一種可能方法：大多數看不見的單詞是新的形態(或數字)

聲音本身在語言中沒有意義
parts of words 是音素的下一級的形態學，是具有意義的最低級別

一個簡單的替代方法是使用字符 n-grams
- Wickelphones (Rumelhart & McClelland 1986)
- Microsoft』s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
使用卷積層的相關想法

能更容易地發揮詞素的許多優點嗎？

1.3 書寫系統中的單詞

書寫系統在表達單詞的方式上差異有大有小

沒有分詞 (沒有在單詞間放置空格)
- 例如中文

大部分的單詞都是分開的：由單詞組成了句子
- 附着詞
  - 分開的
  - 連續的
- 複合名詞
  - 分開的
  - 連續的

1.4 比單詞粒度更細的模型

需要處理數量很大的開放詞彙：巨大的、無限的單詞空間
- 豐富的形態
- 音譯 (特別是名字，在翻譯中基本上是音譯)
- 非正式的拼寫

1.5 字符級模型

① 詞嵌入可以由字符嵌入組成
- 為未知單詞生成嵌入
- 相似的拼寫共享相似的嵌入
- 解決OOV問題
② 連續語言可以作為字符處理：即所有的語言處理均建立在字符序列上，不考慮 word-level

這兩種方法都被證明是非常成功的！
- 有點令人驚訝的是：一般意義上，音素/字母不是一個語義單元：但深度學習模型構成了group
- 深度學習模型可以存儲和構建來自多個字母組的含義表示，以模擬語素和更大單位的意義，匯總形成語義

1.6 單詞之下：書寫系統

大多數深度學習NLP的工作，都是從語言的書面形式開始的：這是一種容易處理的、現成的數據
但是人類語言書寫系統不是一回事！各種語言的字符是不同的！

2.基於字符粒度的模型

2.1 純字符級模型

上節課，我們看到了一個很好的用於句子分類的純字符級模型的例子
- 非常深的卷積網絡用於文本分類
- Conneau, Schwenk, Lecun, Barrault.EACL 2017

強大的結果通過深度卷積堆疊

2.2 字符級別輸入輸出的機器翻譯系統

最初，效果令人不滿意
- (Vilaret al., 2007; Neubiget al., 2013)

只有decoder (初步成功)
- (JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016).

然後，出現了還不錯的結果
- (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
- (Thang Luong, Christopher Manning, ACL 2016)
- (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)