單語言表徵如何遷移到多語言去?

  • 2019 年 11 月 26 日
  • 筆記

作者 | 劉旺旺 編輯 | 唐里

論文:On the Cross-lingualTransferability of Monolingual Representations

單語言表徵的跨語言可遷移性的研究

鏈接:https://arxiv.org/abs/1910.11856

程式碼:暫無

摘要

目前最先進的無監督多語言模型(如多語言BERT)已被證明可以在零樣本的跨語言學習中具有通用性,這種效果主要是因為使用了共享的子詞詞典和多語言的聯合訓練。

這篇文章主要設計實驗去評判上述的觀點。

該文章設計一個方法,該方法在辭彙層面將一個單語的語言模型遷移到另外一個新的語言上,該方法並不依賴字詞詞典和多語言聯合訓練的技巧,但是該方法在跨語言的評測上表現和多語言的bert(mbert)表現旗鼓相當。

文本還發布了一個新的評測數據集(XQuAD), 它是一個更全面的跨語言基準測試,包括由專業翻譯人員翻譯成十種語言的240段和1190對問題回答。

本文貢獻

  1. 提出了一種以非監督方式將單語表示轉換為新語言的方法。
  2. 證明了零樣本遷移既不需要共享的子詞辭彙,也不需要聯合的多語言訓練。
  3. 發現每一種語言的有效辭彙量是訓練多語言語言模型的重要因素。
  4. 證明單語模型學習跨語言泛化的語義抽象。
  5. 提出了一個新的跨語言問題回答數據集。

背景

mbert在跨語言的任務上表現很不錯,普遍認可因素有三個:

  1. 使用共享的詞表;
  2. 在不同語言下進行聯合訓練;
  3. 深度的跨語言表徵。

一定需要上述三個因素才能有一個好的模型去解決跨語言的任務嗎?文本設計了方法進行了探究。

論文設計的方法

假設有兩種語言L1和L2,L1既有大量無標籤數據又有下游任務的監督數據,L2隻有大量無標籤數據,整個流程可分為一下四步:

  1. 在L1無標籤的數據集上,訓練一個單語的bert,任務為masked語言模型(MLM)和下一句話預測(NSP)。
  2. 凍結第1步訓練好的bert中的transformer部分(embedding層和softmax層除外),在L2無標籤的數據集上從頭開始訓練新的bert模型,任務同1。
  3. 使用L1下游任務的監督數據,微調第1步訓練好的模型,微調的過程中凍結 embedding層。
  4. 使用第2步得到的embedding層替換第3步的embedding層,得到新的模型,可應用於L2中相同的下游任務。

實驗

對比實驗的主要的目的是對比不同的多語言模型在zero-shot 跨語言下語言理解能力。

對比的模型有:

  1. Jointmultilingual models (JOINT MULTI) : 一個15種語言上聯合訓練的多語種BERT模型。這個模型類似於mBERT,與XLM等其他變體很相似。
  2. Jointpairwise bilingual models (JOINT PAIR) :只在兩種語言上(英語和另外一種語言)進行聯合訓練,這樣主要是為了提高聯合訓練的效果。
  3. Cross-lingualword embedding mappings (CLWE): 不同語言的詞嵌入表徵首先對齊到沒剖一個單語辭彙的空間,然後在此空間上學習多語言深度模型。
  4. Cross-lingualtransfer of monolingual models (MONOTRANS):本文的方法 。

實驗1:

將上述的模型按照在MultiNLI上進行訓練,然後在XNLI數據集上進行測試:

  • 最好的JOINTMULTI模型明顯優於mBERT,只有一個點差(平均)比無監督的XLM模型(規模更大)。
  • 在測試的JOINTMULTI不同設置中,我們觀察到使用更大的辭彙量有顯著的積極影響。
  • 這表明對更多的語言建模不會影響學習表示的品質(在XNLI上評估)。
  • JOINT PAIR 一組中可以看出 聯合訓練中共享字詞不需要。
  • CLWE表現不佳。即使它在英語上有競爭力,它也不能很好地轉移到其他語言上。

實驗2:

MLDoc: DocumentClassification 文本分類數據集和PAWS-X: ParaphraseIdentification 數據集。

從表中可觀察到,更簡單的模型往往執行得更好,而最佳的總體結果來自CLWE任務本身的表面性質,因為模型可以依賴幾個關鍵字來識別輸入文檔的類型,而不需要任何高級理解。

四種方法得到的結果跟相近,說明為了取得良好的成績,不需要聯合的多語言預培訓和共享的辭彙表 。

實驗3

前面的測試數據集上發現,MONOTRANS與JOINTMULTI, JOINTPAIR 在上述測試集上表現都旗鼓相當,對這種行為的一個可能的假設是,現有的跨語基準是有缺陷的,在辭彙層面上是可以解決的。

為了更好的理解這些模型的跨語言泛化能力,創建了一個新的評測數據集 XQuAD ,由240個段落和1190個來自於v1.17開發集的問答對組成,並將它們翻譯成10種語言:西班牙語、德語、希臘語,俄語,土耳其語,阿拉伯語,越南語,泰國語、漢語和印度語。上下文段落和問題都是由來自Gengo的專業翻譯人員翻譯的。

從表中可知MonoTRANS可以和聯合訓練的模型相媲美 。

論文結論

比較了目前最先進的多語言表徵學習模型和在辭彙水平上轉移到新語言的單語模型。證明了這些模型在標準的零樣本跨語遷移基準上的表現是相似的,這表明在多語言模型中既不需要共享辭彙,也不需要聯合的預訓練。

在一系列的探究性實驗中,還進一步證明了一個針對特定語言訓練的單語模型可以學習一些可推廣到其他語言的語義抽象。結果和分析與以前的一些理論相矛盾(多語言模型需要聯合訓練和共享詞表),為多語言模型的泛化能力的基礎提供了新的見解。為了提供一個更全面的基準來評估跨語言模型,發布了跨語言問題回答數據集(XQuAD)