Attention model intuition

在前面的 seq2seq 模型基础上做些改进，形成注意力模型
Attention 的思想已经是深度学习中最重要的之一

给定一个非常长的法语句子
前面讲到的模型，会把原句子输入编码，然后解码生成翻译
但是人类的做法是，一小部分，一小部分地进行翻译

以 Bleu score 来说
机器翻译对于短句子的处理效果较好
长句子的表现就会越来越差
而注意力模型会改善这个问题

注意力模型来源于 Dimitri Bahdanau, Camcrun Cho, Yoshe Bengio
虽然这个模型是为了机器翻译发明的，但是后来被推广到了其他应用领域
所以这个 paper 非常有开创力和影响力

我们在短句子上看下效果

这里我们使用双向 RNN 结构
由于不准备一个个词进行输出翻译，所以去掉上面的 y_hat

使用双向 RNN，可以计算每个位置的特征集，包括周围的词
然后我们使用另一个 RNN 来生成英文翻译

Attention model

应用注意力模型

这里用的是双向 RNN
也可以用双向 GRU，或者双向 LSTM（更常用），来计算每个词的特征

上层的网络相当于标准的 RNN 序列

这里的公式就可以计算出 α <t,t’>
使用 softmax 比例，确保各个权重相加等于 1

如何计算 e 呢？
可以用一个小型的神经网络
上一步的状态 s 和这一步的 a<t’>
所以应该放多少注意力在 a<t’>，主要取决于上一步隐藏状态的激活值（当前状态的激活值 S 还计算出来）
这种依赖的函数关系未知，但是可以用梯度下降的方法获得

事实上，如果对整个网络梯度下降，那这个小型的神经网络也能起到作用，告诉我们 y_hat 应该放多少注意力在 a<t’> 上

这个方法有个缺点：耗时，耗费额外的计算，quadratic cost（二次代价函数）
如果有 T_x 个输入，T_y 个输出，那总的参数个数是 T_x✖️ T_y 个
机器翻译中，输出和输出一般都不会太长，所以 quadratic cost 还是可以接受的

这里讲的都是机器翻译
但是注意力模型还被应用到了别的领域，比如给图片添加标题，注意力只集中在图片的某个部分，而不是整幅图片

日期标准化问题
我们可以训练一个神经网络，输入任何格式的日期，都可以使用注意力模型转换成标准格式

我们还可以将权重 α <t,t’> 进行可视化
在机器翻译中，可以发现对应的词权重会很高，也就是翻译的时候，注意力集中在了正确的词上
机器自己学习了注意力应该集中在什么地方