最新必讀【預訓練語言模型(BERT/XLNet等)】論文,Google/微軟/華為ICLR2020提交論文

  • 2019 年 10 月 11 日
  • 筆記

【導讀】近年來,預訓練模型(例如ELMo、GPT、BERT和XLNet等)的快速發展大幅提升了諸多NLP任務的整體水平,同時也使得很多應用場景進入到實際落地階段。專知小編整理最近關於預訓練語言模型研究的進展,包括ICLR2020提交論文,有Google、微軟、華為等。

請關注專知公眾號(點擊上方藍色專知關注)

  • 後台回復「PLM」 就可以獲取最新預訓練語言模型論文下載鏈接~

1、Extreme Language Model Compression with Optimal Subwords and Shared Projections(極限語言模型壓縮,可獲得7MB模型)

ICLR 』20提交論文 ,Google AI

作者:Sanqiang Zhao, Raghav Gupta, Yang Song, Denny Zhou

摘要:預先訓練的深度神經網路語言模型,如ELMo、GPT、BERT和XLNet,最近在各種語言理解任務上取得了最先進的性能。然而,它們的大小使得它們在許多場景中的應用不合實際,尤其是在移動設備和邊緣設備上。特別是,由於輸入辭彙量和嵌入維數較大,輸入詞嵌入矩陣占模型記憶體佔用的很大比例。知識蒸餾技術在壓縮大型神經網路模型方面取得了成功,但在生成辭彙量與原始教師模型不同的學生模型方面效果不明顯。本文介紹了一種新的知識蒸餾技術,用於訓練辭彙量顯著減少、嵌入和隱藏狀態維數較低的學生模型。具體地說,我們採用了一種雙訓練機制,同時訓練教師和學生模型,從而為學生辭彙獲得最佳的單詞嵌入。我們將此方法與學習共享投影矩陣相結合,共享投影矩陣將分層知識從教師模型轉移到學生模型。我們的方法能夠將BERT_BASE模型壓縮60倍以上,只是稍微降低下游任務指標,就可以得到記憶體不足7MB的語言模型。實驗結果還表明,與其他先進的壓縮技術相比,該方法具有更高的壓縮效率和精度。

網址:https://www.zhuanzhi.ai/paper/04680670e59b98f5305f30c7b57963e2

2、UNITER: Learning UNiversal Image-TExt Representations(通用影像文本語言表示)

ICLR 』20提交論文 ,微軟

作者:Yen-Chun Chen,Linjie Li,Licheng Yu,Ahmed El Kholy,Faisal Ahmed,Zhe Gan,Yu Cheng,Jingjing Liu

摘要聯合影像-文本嵌入是大多數視覺-語言(V+L)任務的基礎,其中多模態輸入被聯合處理以實現視覺和文本理解。在本文中,我們介紹了一種通用的影像-文本表示方法UNITER,它是通過對四個影像-文本數據集(COCO、可視基因組、概念說明和SBU說明)進行大規模的預訓練而獲得的,可以通過聯合多模態嵌入為異構下游V+L任務提供支援。我們設計了三個訓練前的任務:掩蔽語言建模(MLM)、影像-文本匹配(ITM)和掩蔽區域建模(MRM,有三個變體)。與將聯合隨機掩蔽應用於兩種模式的多模態訓練前同步工作不同,我們在訓練前任務(即,蒙面語言/區域建模的條件是充分觀察影像/文本)。綜合分析表明,條件掩蔽比非條件掩蔽具有更好的性能。我們也進行了一個徹底的消融研究,以找到一個最佳的設置組合的訓練前的任務。大量的實驗表明,UNITER通過6個V+L任務(超過9個數據集)實現了新的技術水平,包括可視化問題回答、影像-文本檢索、引用表達式理解、視覺常識推理、視覺蘊涵和NLVR2。

網址:https://www.zhuanzhi.ai/paper/985d49f20391b09747e78b8a03c0ccca

3、TinyBERT: Distilling BERT for Natural Language Understanding(微型化BERT自然語言理解)

ICLR 』20提交論文 ,華為諾亞方舟

作者:Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu

摘要:語言模型預處理,如BERT,顯著提高了許多自然語言處理任務的性能。然而,預訓練語言模型通常計算開銷大,記憶體佔用大,因此很難在一些資源受限的設備上有效地執行它們。為了在保證模型精度的同時加快推理速度,減小模型尺寸,我們首先提出了一種新的transformer 精餾方法,它是一種專門設計的基於transformer 模型的知識精餾(KD)方法。通過使用這種新的KD方法,一個大型老師BERT所編碼的大量知識可以很好地轉移到一個小型學生TinyBERT身上。此外,我們還為TinyBERT引入了一個新的兩階段學習框架,該框架在訓練前和特定於任務的學習階段都執行transformer 蒸餾。這個框架確保TinyBERT能夠捕獲BERT老師的一般領域和特定於任務的知識。TinyBERT在經驗上是有效的,在GLUE數據集上取得了與BERT相當的結果,同時比BERT小7.5倍,推理速度快9.4倍。TinyBERT也明顯優於最先進的基準線,即使只有28%的參數和31%的基準線推斷時間。

網址:https://www.zhuanzhi.ai/paper/4e8284902660b49194b8f89fd2230ea3

4、ALBERT: A Lite BERT for Self-supervised Learning of Language Representations(語言表示自監督學習Lite BERT)

ICLR 』20提交論文 ,Google

作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

摘要:在訓練自然語言表示時,增加模型大小通常會提高下游任務的性能。然而,在某種程度上,由於GPU/TPU記憶體的限制、更長的訓練時間和意想不到的模型退化,模型的進一步增加變得更加困難。為了解決這些問題,我們提出了兩種參數減少技術來降低記憶體消耗,提高BERT的訓練速度。綜合的經驗證據表明,我們提出的方法導致模型規模比原來的BERT更好。我們還使用了一個自我監督的損失,重點是建立句子間一致性的模型,並表明它始終有助於下游任務的多句輸入。因此,我們的最佳模型在GLUE、RACE和SQuAD基準上取得了最新的最好的結果,而與BERT-large相比,參數更少。

網址:https://www.zhuanzhi.ai/paper/de1be2ecdc499e72ab28d79a37f679e4

5、K-BERT: Enabling Language Representation with Knowledge Graph(知識圖譜語言表示)

AAAI 』20提交論文 ,北京大學,騰訊

作者:Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang

摘要:預訓練的語言表示模型,如BERT,從大型語料庫中捕獲一般的語言表示,但是缺乏領域特定的知識。在閱讀領域文本時,專家用相關知識進行推理。為了使機器能夠實現這一功能,我們提出了一種基於知識圖譜支援知識的語言表示模型(K-BERT),其中將三元組作為領域知識注入到句子中。然而,過多的知識摻入可能會使句子偏離正確的意思,這就是所謂的知識雜訊(KN)問題。為了克服KN, K-BERT引入了軟位置和可見矩陣來限制知識的影響。由於K-BERT能夠從預訓練的BERT中載入模型參數,因此不需要進行自訓練就可以通過KG輕鬆地將領域知識注入到模型中。我們的實驗顯示了12項NLP任務的良好結果。特別是在特定領域的任務(包括金融、法律和醫學)中,K-BERT的表現明顯優於BERT,這說明K-BERT是解決需要專家參與的知識驅動問題的一個很好的選擇。

網址:https://www.zhuanzhi.ai/paper/ce9df4d0aa699cc4f0eed4d83daf23e1

更多最新論文:

6. 語言模型作為知識庫?Language Models as Knowledge Bases? Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, Sebastian Riedel. EMNLP2019.

  • 論文: https://arxiv.org/pdf/1909.01066.pdf
  • 程式碼: https://github.com/facebookresearch/LAMA

7. BERT 語言知識探究,Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs. Alex Warstadt, Yu Cao, Ioana Grosu, Wei Peng, Hagen Blix, Yining Nie, Anna Alsop, Shikha Bordia, Haokun Liu, Alicia Parrish, Sheng-Fu Wang, Jason Phang, Anhad Mohananey, Phu Mon Htut, Paloma Jeretič, Samuel R. Bowman. EMNLP2019.

  • 論文: https://arxiv.org/pdf/1909.02597.pdf
  • 程式碼: https://github.com/alexwarstadt/data_generation

8. VideoBERT: A Joint Model for Video and Language Representation Learning. Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid. ICCV2019.

  • 論文: https://arxiv.org/pdf/1904.01766.pdf

-END-