ACL 2020 | 讓笨重的BERT問答匹配模型變快！

2020 年 6 月 8 日
AI

本文介紹的是 ACL 2020 論文《DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering》，論文作者來自Stony Brook University 。

作者 | 曹慶慶

論文鏈接：//awk.ai/assets/deformer.pdf

程式碼鏈接：//github.com/StonyBrookNLP/deformer

背景

BERT、XLNe t、RoBERTa等基於Transformer[1]的預訓練模型推出後，自然語言理解任務都獲得了大幅提升。問答任務（Question Answering，QA）[2]也同樣取得了很大的進步。

用BERT類模型來做問答或閱讀理解任務，通常需要將問題和問題相關文檔拼接一起作為輸入文本，然後用自注意力機制對輸入文本進行多層交互編碼，之後用線性分類器判別文檔中可能的答案序列。如下圖：

雖然這種片段拼接的輸入方式可以讓自注意力機制對全部的token進行交互，得到的文檔表示是問題相關的（反之亦然），但相關文檔往往很長，token數量一般可達問題文本的10~20倍[3]，這樣就造成了大量的計算。

在實際場景下，考慮到設備的運算速度和記憶體大小，往往會對模型進行壓縮，比如通過蒸餾（distillation）小模型、剪枝（pruning）、量化（quantization）和低軼近似／權重共享等方法。

但模型壓縮還是會帶來一定的精度損失。因此我們思考，是不是可以參考雙塔模型的結構，提前進行一些計算，從而提升模型的推理速度？

如果這種思路可行，會有幾個很大的優勢：

它不需要大幅修改原來的模型架構
也不需要重新預訓練，可以繼續使用標準Transformer初始化+目標數據集fine-tune的精調方式
還可以疊加模型壓縮技術

經過不斷地嘗試，我們提出了《Deformer：Decomposing Pre-trained Transformers for Faster Question Answering》，在小幅修改模型架構且不更換預訓練模型的情況下提升推理速度。下面將為大家介紹我們的思考歷程。

模型結構

在開篇的介紹中，我們指出了QA任務的計算瓶頸主要在於自注意力機制需要交互編碼的token太多了。因此我們猜想，是否能讓文檔和問題在編碼階段儘可能地獨立？

這樣的話，就可以提前將最難計算的文檔編碼算好，只需要實時編碼較短的問題文本，從而加速整個QA過程。

部分研究表明，Transformer 的低層（lower layers）編碼主要關注一些局部的語言表層特徵（詞形、語法等等），到高層（upper layers）才開始逐漸編碼與下游任務相關的全局語義資訊。因此我們猜想，至少在模型的某些部分，「文檔編碼能夠不依賴於問題」的假設是成立的。具體來說可以在 Transformer 開始的低層分別對問題和文檔各自編碼，然後再在高層部分拼接問題和文檔的表徵進行交互編碼，如圖所示：