斯坦福NLP课程 | 第12讲 – NLP子词模型

2022 年 5 月 16 日
筆記
cs224n, LSTM, nlp, RNN, 子词模型, 斯坦福, 自然语言处理, 自然语言处理教程 | 斯坦福CS224n带学与全套笔记解读

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：//www.showmeai.tech/tutorials/36
本文地址：//www.showmeai.tech/article-detail/249
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！视频和课件等资料的获取方式见文末。

引言

授课计划

A tiny bit of linguistics / 语法学基础知识
Purely character-level models / 基于字符粒度的模型
Subword-models: Byte Pair Encoding and friends / 子词模型
Hybrid character and word level models / 混合字符与词粒度的模型
fastText / fastText模型

1.语法学基础知识

1.1 人类语言的声音：语音学和语音体系

语音学 (honetics) 是音流无争议的 物理学

语音体系 (Phonology) 假定了一组或多组独特的、分类的单元：音素 (phoneme) 或者是独特的特征
- 这也许是一种普遍的类型学，但却是一种特殊的语言实现
- 分类感知的最佳例子就是语音体系
  - 音位差异缩小
  - 音素之间的放大

1.2 词法：词类

传统上，词素 (morphemes) 是最小的语义单位

\[\left[\left[\text {un}\left[[\text { fortun }(\mathrm{e})]_{\text { Root }} \text { ate }\right]_{\text { STEM }}\right]_{\text { STEM }} \text {ly}\right]_{\text { WORD }}
\]

深度学习：形态学研究较少；递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
- 处理更大词汇量的一种可能方法：大多数看不见的单词是新的形态(或数字)

声音本身在语言中没有意义
parts of words 是音素的下一级的形态学，是具有意义的最低级别

一个简单的替代方法是使用字符 n-grams
- Wickelphones (Rumelhart & McClelland 1986)
- Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
使用卷积层的相关想法

能更容易地发挥词素的许多优点吗？

1.3 书写系统中的单词

书写系统在表达单词的方式上差异有大有小

没有分词 (没有在单词间放置空格)
- 例如中文

大部分的单词都是分开的：由单词组成了句子
- 附着词
  - 分开的
  - 连续的
- 复合名词
  - 分开的
  - 连续的

1.4 比单词粒度更细的模型

需要处理数量很大的开放词汇：巨大的、无限的单词空间
- 丰富的形态
- 音译 (特别是名字，在翻译中基本上是音译)
- 非正式的拼写

1.5 字符级模型

① 词嵌入可以由字符嵌入组成
- 为未知单词生成嵌入
- 相似的拼写共享相似的嵌入
- 解决OOV问题
② 连续语言可以作为字符处理：即所有的语言处理均建立在字符序列上，不考虑 word-level

这两种方法都被证明是非常成功的！
- 有点令人惊讶的是：一般意义上，音素/字母不是一个语义单元：但深度学习模型构成了group
- 深度学习模型可以存储和构建来自多个字母组的含义表示，以模拟语素和更大单位的意义，汇总形成语义

1.6 单词之下：书写系统

大多数深度学习NLP的工作，都是从语言的书面形式开始的：这是一种容易处理的、现成的数据
但是人类语言书写系统不是一回事！各种语言的字符是不同的！

2.基于字符粒度的模型

2.1 纯字符级模型

上节课，我们看到了一个很好的用于句子分类的纯字符级模型的例子
- 非常深的卷积网络用于文本分类
- Conneau, Schwenk, Lecun, Barrault.EACL 2017

强大的结果通过深度卷积堆叠

2.2 字符级别输入输出的机器翻译系统

最初，效果令人不满意
- (Vilaret al., 2007; Neubiget al., 2013)

只有decoder (初步成功)
- (JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016).

然后，出现了还不错的结果
- (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
- (Thang Luong, Christopher Manning, ACL 2016)
- (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)