ACL 2020 | 让笨重的BERT问答匹配模型变快！

2020 年 6 月 8 日
AI

本文介绍的是 ACL 2020 论文《DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering》，论文作者来自Stony Brook University 。

作者 | 曹庆庆

论文链接：//awk.ai/assets/deformer.pdf

代码链接：//github.com/StonyBrookNLP/deformer

背景

BERT、XLNe t、RoBERTa等基于Transformer[1]的预训练模型推出后，自然语言理解任务都获得了大幅提升。问答任务（Question Answering，QA）[2]也同样取得了很大的进步。

用BERT类模型来做问答或阅读理解任务，通常需要将问题和问题相关文档拼接一起作为输入文本，然后用自注意力机制对输入文本进行多层交互编码，之后用线性分类器判别文档中可能的答案序列。如下图：

虽然这种片段拼接的输入方式可以让自注意力机制对全部的token进行交互，得到的文档表示是问题相关的（反之亦然），但相关文档往往很长，token数量一般可达问题文本的10~20倍[3]，这样就造成了大量的计算。

在实际场景下，考虑到设备的运算速度和内存大小，往往会对模型进行压缩，比如通过蒸馏（distillation）小模型、剪枝（pruning）、量化（quantization）和低轶近似／权重共享等方法。

但模型压缩还是会带来一定的精度损失。因此我们思考，是不是可以参考双塔模型的结构，提前进行一些计算，从而提升模型的推理速度？

如果这种思路可行，会有几个很大的优势：

它不需要大幅修改原来的模型架构
也不需要重新预训练，可以继续使用标准Transformer初始化+目标数据集fine-tune的精调方式
还可以叠加模型压缩技术

经过不断地尝试，我们提出了《Deformer：Decomposing Pre-trained Transformers for Faster Question Answering》，在小幅修改模型架构且不更换预训练模型的情况下提升推理速度。下面将为大家介绍我们的思考历程。

模型结构

在开篇的介绍中，我们指出了QA任务的计算瓶颈主要在于自注意力机制需要交互编码的token太多了。因此我们猜想，是否能让文档和问题在编码阶段尽可能地独立？

这样的话，就可以提前将最难计算的文档编码算好，只需要实时编码较短的问题文本，从而加速整个QA过程。

部分研究表明，Transformer 的低层（lower layers）编码主要关注一些局部的语言表层特征（词形、语法等等），到高层（upper layers）才开始逐渐编码与下游任务相关的全局语义信息。因此我们猜想，至少在模型的某些部分，“文档编码能够不依赖于问题”的假设是成立的。具体来说可以在 Transformer 开始的低层分别对问题和文档各自编码，然后再在高层部分拼接问题和文档的表征进行交互编码，如图所示：