Transformer|深度学习（李宏毅）（八）

李宏毅老师深度学习系列2020

一、RNN与CNN处理Seq2seq问题的局限性

1. RNN的局限性

处理Seq2seq问题时一般会首先想到RNN，但是RNN的问题在于无论使用单向还是双向RNN都无法并行运算，输出一个值必须等待其依赖的其他部分计算完成。

2. CNN的局限性

为了解决并行计算的问题，可以尝试使用CNN来处理。如下图，使用CNN时其同一个卷积层的卷积核的运算是可以并行执行的，但是浅层的卷积核只能获取部分数据作为输入，只有深层的卷积层的卷积核才有可能会覆盖到比较广的范围的数据，因此CNN的局限性在于无法使用一层来输出考虑了所有数据的输出值。

二、Self-attention

Transformer是一种使用了Self-attention的Seq2seq模型。Self-attention是一种可以取代RNN的网络结构，比起RNN其可以实现并行运算。

1. Self-attention的结构

①如下图，首先要将输入序列的向量经过一个Embedding层（即乘以权重 $W$ ）获得 $a^{i}$ ，然后 $a^{i}$ 分别乘以三个权重 $W^{q}、W^{k}和W^{v}$ 来获得 $q^{i}、k^{i}和v^{i}$ ：

$q^{i}、k^{i}和v^{i}$ 分别代表query、key和value，在后面会用到：

②接下来需要拿每个query对每个key做attention，这里使用的是Scaled Dot-Product Attention，其公式为：

$a_{i,j}=q^{i}\cdot k^{j}/\sqrt{d}$

也就是计算query与key的点积，另外点积需要除以 $\sqrt{d}$ ， $d$ 是 $q和k$ 的维度，主要是为了起到缩放的作用，避免梯度爆炸。至于更详细的为什么Dot-Product Attention需要被Scaled，可以参考该文章：为什么 dot-product attention 需要被 scaled？

该过程如下图所示，下图展示了 $q^{1}$ 与key做Attention的过程，获得了 $a_{1,i}$ ：

③然后将得到的结果 $a_{1,i}$ 通过 $softmax$ 函数获得 $\hat{a}_{1,i}$ :

④然后将 $\hat{a}_{1,i}$ 与对应的 $v^{i}$ 相乘在加起来就获得了第一个输出值 $b^{1}$ 。需要注意这里的 $b^{1}$ 是考虑了所有的输入 $x^{i}$ 所产生的，其具备与RNN类似的效果。该过程如下图所示：

同理 $b^{2}$ 等也通过同样的过程计算出来：

2. Self-attention如何并行运算

①将 $a^{i}$ 横向排列到一起组成矩阵 $I$ ，然后分别用 $W^{q}、W^{k}和W^{v}$ 乘以 $I$ 来获得矩阵 $Q、K和V$ ，该过程如下图所示：

该步骤的形式化过程如下：

$I=\begin{pmatrix} a^{1} & a^{2} & \cdots & a^{N} \end{pmatrix}\\ Q=W^{q}I=W^{q}\begin{pmatrix} a^{1} & a^{2} & \cdots & a^{N} \end{pmatrix}=\begin{pmatrix} q^{1} & q^{2} & \cdots & q^{N} \end{pmatrix}\\ K=W^{k}I=W^{k}\begin{pmatrix} a^{1} & a^{2} & \cdots & a^{N} \end{pmatrix}=\begin{pmatrix} k^{1} & k^{2} & \cdots & k^{N} \end{pmatrix}\\ V=W^{v}I=W^{v}\begin{pmatrix} a^{1} & a^{2} & \cdots & a^{N} \end{pmatrix}=\begin{pmatrix} v^{1} & v^{2} & \cdots & v^{N} \end{pmatrix}$

由此也就完成了以下过程：

②接下来需要对 $q^{i}$ 和 $k^{i}$ 做attention，在每一个 $q^{i}$ 对每一个 $k^{i}$ 进行点积运算时可以将 $k^{iT}$ 纵向叠加成一个矩阵即 $K^{T}$ ，该过程如下图所示（下图中省略了 $\sqrt{d}$ ）：

同样地每一个 $q^{i}$ 也可以横向排列到一起来与 $K^{T}$ 做点积运算，得到矩阵 $A$ ，该过程如下图所示：

该步骤的形式化过程如下：

$A=\frac{1}{\sqrt{d}}K^{T}Q=\frac{1}{\sqrt{d}}\begin{pmatrix} k^{1T}\\ k^{2T}\\ \vdots \\ k^{NT} \end{pmatrix} \begin{pmatrix} q^{1} & q^{2} & \cdots & q^{N} \end{pmatrix}$

③将矩阵 $A$ 的每一列通过 $softmax$ 函数获得 $\hat{A}$ ，该过程如下图所示：

④然后将 $v^{i}$ 横向排列到一起再与矩阵 $\hat{A}$ 相乘来获得最终的输出矩阵 $O$ ，该过程如下图所示：

该步骤的形式化过程如下：

$O=V\hat{A}=\begin{pmatrix} v^{1} & v^{2} & \cdots & v^{N} \end{pmatrix}\begin{pmatrix} \hat{a}_{1,1} & \hat{a}_{2,1} & \cdots & \hat{a}_{N,1}\\ \hat{a}_{1,2} & \hat{a}_{2,2} & \cdots & \hat{a}_{N,2}\\ \vdots & \vdots & \ddots & \vdots \\ \hat{a}_{1,N} & \hat{a}_{2,N} & \cdots & \hat{a}_{N,N} \end{pmatrix}$

并行运算的整个过程如下图所示：

具体的细节可以用下图来表示：

总而言之是一些矩阵运算，可以使用GPU来进行加速。

3. Multi-head Self-attention

$q^{i}、k^{i}、v^{i}$ 还可以继续乘以各自的权重获得 $q^{i,j}、k^{i,j}、v^{i,j}$ ，比如 $q^{i,1}=W^{q,1}q^{i}，q^{i,2}=W^{q,2}q^{i}，\cdots ，q^{i,m}=W^{q,m}q^{i}$ ，该过程如下图所示（以2个head为例）：

然后分别将对应的 $q^{i,m}$ 与对应的 $k^{i,m}$ 做attention，然后经过与上一部分介绍的相同的步骤来获得 $b^{i,m}$ ，最后将所有的 $b^{i,m}$ 纵向拼接到一起再与权重 $W^{O}$ 相乘来获得最终的输出 $O$ 。该过程如下所示：

4. Self-attention如何考虑位置信息

显然上述Self-attention的输出是不考虑 $a^{i}$ 的顺序的，可以通过将 $a^{i}$ 与一个向量 $e^{i}$ 加起来的方式来将 $a^{i}$ 序列的顺序考虑进来，要注意这里的 $e^{i}$ 是预先设定好的，并不会在参数更新过程中被学习。该过程如下所示：

这里的 $e^{i}$ 的来源可以理解为：先将 $x^{i}$ 与一个代表向量 $x^{i}$ 在序列中位置的独热编码 $p^{i}$ 纵向拼接起来然后乘以权重 $W$ 获得 $a^{i}$ ，其中 $W$ 可以分为两部分 $\begin{pmatrix} W^{I} & W^{P} \end{pmatrix}$ ，其中 $W^{P}$ 不是学习得来的，是预先设定的。该过程的形式化描述如下：

$W\begin{pmatrix} x^{i}\\ p^{i} \end{pmatrix}=\begin{pmatrix} W^{I} & W^{P} \end{pmatrix}\begin{pmatrix} x^{i}\\ p^{i} \end{pmatrix}=\underset{a^{i}}{\underbrace{W^{I}x^{i}}}+\underset{e^{i}}{\underbrace{W^{P}p^{i}}}$

以下是该过程的直观的描述：

如何获得设定的 $W^{P}$ 有特定的方法，这里只展示一下将 $W^{P}$ 可视化的结果：

三、Transformer

1. Self-attention在Seq2seq问题中的应用

Self-attention层可以直接替换RNN层来处理Seq2seq问题，比如可以将RNN的AutoEncoder中的Encoder和Decoder全部替换成Self-attention层，使用下图中的网络结构同样可以做一些RNN能做的工作。比如翻译等：

2. Transformer

下图以机器翻译为例展示了Transformer的结构：

可以看到Transformer共有Encoder和Decoder两部分组成。

在Encoder部分：
①Input Embedding：指的是词嵌入层，获得词的编码向量；
②Positional Encoding：指的是上文提到的 $e^{i}$ ，用来确定输入向量的位置；
③Multi-Head Attention：这一层指的是如下结构：

④Add&Norm：该部分处理顺序如下：

这部分会把输入 $a$ 加到Multi-Head Attention层的输出 $b$ 上（一个残差连接 residual connection）然后对相加的结果做Layer normalization，Layer normalization与Batch normalization有所不同，Batch normalization是在一个Batch的每一个维度上做标准化使其 $\mu =0,\sigma =1$ ，而Layer normalization是对每一笔数据做标准化：

⑤Feed Forward：前馈神经网络；
⑥总共有N个这样的结构（Nx）。

在Decoder部分：
①Input：以Decoder的前一个时间步（time step）的输出作为Decoder的输入；
②Masked Multi-Head Attention： masking 的作用就是防止在训练的时候使用未来的输出的单词，确保对位置i的预测仅依赖于已知的位置i之前的输出，而不会依赖于位置i之后的输出。比如训练时，第一个单词是不能参考第二个单词的生成结果的。 Masking就会把这个信息变成0，用来保证预测位置 i 的信息只能基于比 i 小的输出；
③Multi-Head Attention：encoder-decoder attention layer ，这一层会attend到之前Encoder部分的输出；

四、Attention可视化

Self-attention的过程中序列中的任意两个词都会做attention，这里可以将对应的权重做可视化：

在下面这张图中有个有趣的现象，可以看到经过训练后，句子“The animal didn’t cross the street because it was too tired.”中“it”到“animal”的权重很大，而句子“The animal didn’t cross the street because it was too wide.”中“it”到“street”的权重很大。