NLP中的注意力模型 Attention model(学习心得)
Attention model intuition
在前面的 seq2seq 模型基础上做些改进,形成注意力模型
Attention 的思想已经是深度学习中最重要的之一
给定一个非常长的法语句子
前面讲到的模型,会把原句子输入编码,然后解码生成翻译
但是人类的做法是,一小部分,一小部分地进行翻译
以 Bleu score 来说
机器翻译对于短句子的处理效果较好
长句子的表现就会越来越差
而注意力模型会改善这个问题
注意力模型来源于 Dimitri Bahdanau, Camcrun Cho, Yoshe Bengio
虽然这个模型是为了机器翻译发明的,但是后来被推广到了其他应用领域
所以这个 paper 非常有开创力 和 影响力
我们在短句子上看下效果
这里我们使用双向 RNN 结构
由于不准备一个个词进行输出翻译,所以去掉上面的 y_hat
使用双向 RNN,可以计算 每个位置 的特征集,包括周围的词
然后我们使用另一个 RNN 来生成英文翻译
- 我们需要输出翻译的第一个词,这个时候其实我们不用关注整个句子,只要关注原来第一个词附近的部分
- 这里设定 attention weights,在第一个信息块放 α <1,1> 的权重,第二个信息块放 α <1,2>,然后 α <1,3>
- 这就汇聚成了第一个单元的输入 C(需要放注意力的上下文 context)
- 对于第二个单元 S<2>,有新的权重 α <2,1>, α <2,2>, α <2,3>,另外还有第一个单元产生的词作为输入
- 然后继续后面的单元,直到整句翻译完成
Attention model
应用注意力模型
这里用的是双向 RNN
也可以用双向 GRU,或者双向 LSTM(更常用),来计算每个词的特征
- 这里我们用 a
来表示在 t 时间前向和反向的值,即 step t 时候的特征向量 - 解码层中,第一个单元的输入 C
- 我们使用注意力参数 attention parameters:α <1,1>,α <1,2>,等(权重皆为非负数,和为 1)
- 不同 time steps 中的特征值加权求和
上层的网络相当于标准的 RNN 序列
这里的公式就可以计算出 α <t,t’>
使用 softmax 比例,确保各个权重相加等于 1
如何计算 e 呢?
可以用一个小型的神经网络
上一步的状态 s
所以应该放多少注意力在 a<t’>,主要取决于上一步隐藏状态的激活值(当前状态的激活值 S
这种依赖的函数关系未知,但是可以用梯度下降的方法获得
事实上,如果对整个网络梯度下降,那这个小型的神经网络也能起到作用,告诉我们 y_hat 应该放多少注意力在 a<t’> 上
这个方法有个缺点:耗时,耗费额外的计算,quadratic cost(二次代价函数)
如果有 T_x 个输入,T_y 个输出,那总的参数个数是 T_x✖️ T_y 个
机器翻译中,输出和输出一般都不会太长,所以 quadratic cost 还是可以接受的
这里讲的都是机器翻译
但是注意力模型还被应用到了别的领域,比如给图片添加标题,注意力只集中在图片的某个部分,而不是整幅图片
日期标准化问题
我们可以训练一个神经网络,输入任何格式的日期,都可以使用注意力模型转换成标准格式
我们还可以将权重 α <t,t’> 进行可视化
在机器翻译中,可以发现对应的词权重会很高,也就是翻译的时候,注意力集中在了正确的词上
机器自己学习了注意力应该集中在什么地方