【NLP】綜述 | 跨語言自然語言處理筆記

2019 年 12 月 10 日
筆記

閱讀大概需要20分鐘

跟隨小部落客，每天進步一丟丟

作者：匿名俠

排版：葡萄媛

來自：程式媛驛站

01 摘要

跨語言自然語言處理是當下研究的熱點。其中，跨語言詞向量（Cross-lingual Word Embedding）可以幫助比較詞語在不同語言下的含義，同時也為模型在不同語言之間進行遷移提供了橋樑。[Ruder et al., 2017] 詳細描述了跨語言詞向量學習方法和分類體系，將跨語言詞向量按照對齊方式分為了基於詞對齊、基於句子對齊、基於文檔對齊的方法。其中基於詞對齊的方法是所有方法的核心和基礎。在基於詞對齊的方法中，又有基於平行語料的方法，基於無監督的方法等。近些年，無監督方法成為研究熱點。本文主要記錄一些跨語言詞向量的相關論文。

02 單詞語詞向量

常用的單語詞向量有 Word2Vec， GloVe， fastText 等。下面主要介紹一下 Word2Vec[Mikolovet al., 2013c,a]，Word2Vec 基於分散式假設（Distributional hypothesis）：擁有相似上下文（context）的詞語通常擁有相似的含義。其演算法分為 Skip-gram 和 Continuous Bag of Words（CBOW）。Skipgram 根據中心詞預測周圍的詞， CBOW 根據周圍的詞預測中心的詞語，如圖1。

一種常見的方法為 Skip-gram + Negative Sampling。簡單來說，該演算法構造兩個向量矩陣，一個 Embedding 矩陣，一個 Context 矩陣。利用 Skip-gram 來構建訓練正例，使用 Negative sampling來構建負例，如圖2。

訓練完成以後（教程可參考The Illustrated Word2vec， Vector Semantics），每個詞語對應兩個向量，一個 Embedding 矩陣中的表示，一個 Context 矩陣中的表示，最終表示可以直接使用 Embedding 矩陣作為詞向量，或者可以將兩個矩陣相加得到詞向量，或者可以將兩個矩陣拼接得到詞向量。

03 基於詞語映射的方法

[Ruder et al., 2017] 將基於詞映射的方法根據映射方法（mapping method）、種子詞語的選擇（seed lexicon）、映射的改進（refnement）、最近鄰詞語的檢索方法（retrieval）進行了分類。下面簡單介紹其中的一些經典工作。

[Mikolov et al., 2013b] 觀察發現，不同語言的詞向量在向量空間中有著相似的幾何排列。如圖3。

左圖為英語，右圖為西班牙語（利用 PCA 進行詞向量的降維）。發現，不論是數字還是動物，英語和西班牙語詞向量的分布非常相似。基於這一觀察，提出了一種簡單地線性映射的方法來完成源語言向量空間到目標語言向量空間的轉換。該方法的目標在於學習一個從源語言到目標語言的線性映射矩陣（linear transformation matrix）

，首先從源語言中選擇 n = 5000 個頻率最高的詞語以及其對應的

翻譯作為種子詞語，用於學習線性映射。使用隨機梯度下降來最小化均方誤差（mean squared error, MSE)。學習好映射矩陣之後，將源語言映射到目標語言空間，根據 cosine similarity 來尋找翻譯。

[Xing et al., 2015] 發現上述方法有幾處不一致。詞向量學習的時候使用的是內積（inner product），但是在選擇詞語的時候卻是根據 cosine similarity，學習映射矩陣時，使用的是均方誤差（mean square error），這些導致了幾處不匹配。因此首先將詞向量的長度限制為單位長度。這樣相當於所有的向量都會在高維空間落在一個超球面上，如圖4。這樣就使得兩個向量的內積和 cosine similarity 是一致的。然後將目標函數從以均方誤差為目標修改為以 cosine similarity 為目標:。之前的方法對映射矩陣是沒有限制的，這裡將映射矩陣限制為正交矩陣（Orthogonal transform），使得其滿足，其實際求解是使用奇異值分解（SVD）來完成，。其中為源語言向量矩陣，為目標語言向量矩陣。實驗證明，該方法的實際效果更好。[Xing et al., 2015, Ruder et al., 2017]。

04 基於無監督的方法

之前的方法都是依賴於平行語料的，接下來主要介紹一些無監督的工作，也是當前比較熱門的方向。[Conneau et al., 2017] 提出了一種完全無監督的詞級別的翻譯（對齊）方法，首先使用對抗訓練將兩種語義空間對齊，然後使用迭代的方式來一步步更新學習到的映射矩陣，並提出了一種 CSLS方法來檢索最近的翻譯詞語。如圖5。

由於沒有對齊訊號，所以有一個基本的前提條件是兩種語言的辭彙處於同一內容空間（碎碎念：FAIR 的無監督機器翻譯），這樣兩種語言的向量空間幾何排列才是相似的，才有可能通過映射完成兩個空間的對齊，不然是完全沒有任何對齊訊號的。首先使用對抗訓練的方式使得判別器無法區分映射之後的源語言向量和目標語言向量，相當於要求將源語言映射到目標語言語義空間下。判別器的學習目標為儘可能區分映射後的源語言與目標語言：

映射矩陣的目標為儘可能使得判別器區分錯誤：

在得到映射矩陣以後，有一個迭代調整的過程，根據學習到的映射，選擇互為最近鄰的詞語作為詞典來學習映射，可以迭代這個過程。作者還提出了一種新的相似性度量方式，因為在高維空間中存在一種現象叫做 Hubness，即向量空間中存在密集區域，其中的一些點會是很多點的最近鄰。之前的方式採用 cosine similarity 來選擇最近鄰，作者設計了一種 Cross-Domain Similarity Local Scaling(CSLS) 的度量方式：

其中，為和其 K 個目標語言最近鄰的平均餘弦距離。

基於上述工作， [Lample et al., 2017] 在沒有對齊語料的情況下，僅使用單語語料來完成無監督機器翻譯。該方法可以很好地泛化到其他語言，並且為有監督的方法提供了性能下限。其 baseline模型如 [Johnson et al., 2017]。首先使用上述無監督方法得到的翻譯詞典來初始化翻譯模型。接著使用降噪自編碼器訓練，跨領域訓練和對抗訓練得到最終模型，如圖6。

降噪自編碼器部分，首先從數據集中取樣一條數據 x，然後給輸入數據引入噪音，

使用編碼器對該噪音輸入進行編碼，接著使用解碼器進行解碼得到輸出。其損失函數為：

其中為交叉熵損失。其中噪音模型有兩種方式，一種是以一定的概率丟棄每個詞語。第二種是打亂輸入，但是在文中限制了新的位置距離原本的位置不能超過 k，如圖7。

第二部分是跨領域訓練，這部分是得到翻譯模型的關鍵。利用到了 back translation，首先從語言中取樣一個句子，使用當前翻譯模型翻譯到語言下，然後給加雜訊，使用作為訓練對來訓練模型，其損失函數為：

第三部分為對抗訓練部分，希望編碼器可以將表示編碼到一個語言無關的空間下，其中有一個判別器目前是區分兩種語言:，部分要更新的參數是:，編碼器的目標是儘可能使得判別器無法區分：

這部分要更新的參數是，如圖8。

對於選擇模型的的超參，論文提出了代理準則（surrogate criterion），如公式1，即輸入和重構的輸入之間的 BLEU 分數。還有一些細節【decoder 如何判斷當前生成的語種？在多語言翻譯中，通常通過在解碼端添加翻譯方向的標誌位來控制解碼方向。但是在本文的假設中，只有非此即彼的兩個語種，並且 encoder 對它們一視同仁的。因此，作者只是將兩者的解碼起始符 <s> 加以區分，各自維護一個。

兩個訓練過程是如何共享同一套 Seq2Seq 框架的？作者所謂的「同一個 encoder 和 decoder」，其實是針對隱層部分而言的。每個語種有自己的embedding 層和 pre-softmax 層，在模型訓練中進行 look-up 來獲取各自的參數矩陣。此外，分成「源語言」和「目標語言「是為了便於描述，實際上兩者並不區別。最終訓練得到的模型，可以在這兩種語言中做任意方向的翻譯。（碎碎念：FAIR 的無監督機器翻譯）】

[Lample et al., 2018] 指出了 [Lample et al., 2017, Artetxe et al., 2017] 幾點特點：使用無監督方法推理出來的詞典來初始化系統，使用了基於 Seq2Seq 的降噪自編碼器模型，使用 back translation來將無監督問題轉換為有監督問題。同時使用了對抗訓練來將不同語言編碼到同一空間。本文總結了無監督機器翻譯的三個核心點。第一點，初始化，初始化可以幫助模型具有一定的先驗知識。第二點，語言模型，根據大規模的單語語料可以學習到好的語言模型。第三點，迭代的反向翻譯，該方法可以將無監督轉換為有監督，可以完成翻譯任務的學習。如圖9。

對於初始化，本文使用源語言和目標語言的單語語料來共同學習 BPE，學習完成以後用來初始化編碼器和解碼器的向量查找表。對於語言模型，使用降噪自編碼器來學習語言模型。對於反向翻譯，使用迭代的反向翻譯來完成翻譯模型的學習。該模型同時共享了編碼器和解碼器的參數，期望學習到共享的語義空間表示。

05 基於虛擬雙語語料庫的方法

[Xiao and Guo, 2014] 利用 Wikitionary 作為兩種語言之間的橋樑，構建了統一的雙語詞典。首先構建源語言詞典，然後利用 Wikitionary 找到其所有的翻譯。刪除滿足以下條件的翻譯：一個源語言詞語有多個目標語言翻譯、一個目標語言詞語有多個源語言翻譯、源語言的目標語言翻譯詞語在目標語言數據集中沒有出現。經過以上三步處理，可以得到一個一對一的雙語詞典。將源語言和目標語言建立統一的雙語詞表 V ，利用構建好的雙語詞典，在詞表 V 中屬於詞典映射關係的兩個詞語將會被映射到相同的詞向量空間。然後利用神經網路來學習詞向量表示。其任務是一個二分類問題，輸入是一個子句，通過替換正例中的詞語來構建負例。最終會學習到統一雙語詞典的向量表示，以此作為雙語空間的橋樑。其模型如圖10。這種方法對齊詞語有同一表示。

[Gouws and Søgaard, 2015] 構建了一種真實的虛擬雙語語料庫，混合了不同的語言。針對不同的任務可以定義不同的對應等價方法，例如根據翻譯，可以定義英語 house 和法語 maison 是等價的，根據詞性標註，可以定義英語 car 和法語 maison 都是名詞是等價的。因此這裡的對齊方式不一定是翻譯，可以根據具體的任務來定義，然後利用這種對齊關係來構造雙語偽語料。首先將源語言和目標語言數據混合打亂。對於統一語料庫中一句話的每一個詞語，如果存在於對齊關係中，以一定概率來替換為另一種語言的詞語。通過該方法可以構建得到真實的雙語語料庫。例如根據翻譯關係，原始句子 build the house 經過構建可以得到 build the maison，就是將 house 替換為了 maison。利用構建好的全部語料來使用 CBOW 演算法學習詞向量，由於替換以後的詞語有相似的上下文，因此會得到相似的表示。對於那些沒有對齊關係的詞語，例如「我吃蘋果」和「I eat apple」，吃和 eat沒有對齊關係，但如果我和 I、蘋果和 apple 有對齊關係，根據構造出來的語料「I 吃 apple」也可以完成吃和 eat 的隱式對齊。這種方法對齊詞語有相似表示。

[Ammar et al., 2016] 提出了一種將上述方法擴展到多種語言上的方法 multiCluster。藉助雙語詞典，將詞語劃分為多個集合，每個集合中是相同語義的詞語。然後將所有語言的單語語料庫拼接，對於其中的一句話，如果詞語在集合中，那就替換為集合中其他語言的詞語。得到新的多語語料庫以後，使用 skip-gram 來訓練得到詞向量表示。

[Duong et al., 2016] 提出的方法與上述方法類似，區別在於，只在使用 CBOW 演算法學習詞向量的時候替換目標詞語。而非預先利用詞典構造多語語料庫。在學習的時候會同時預測源語言目標詞語及其對應的替換後的目標詞語作為聯合訓練目標。除此以外，之前的方法都沒有處理一詞多義的問題，例如 bank 可能有兩種意思：river bank 或者 fnancial bank，對應在義大利語中的翻譯就是 sponda 和 banca。因此作者利用上下文辭彙表示結合中心辭彙表示的方式來選擇最合適的翻譯詞語。通常來說，在 CBOW 演算法中，會有兩個矩陣，一個 context 矩陣 V ，一個 word 矩陣 U。作者指出，使用這種方式訓練的詞向量， V 矩陣更傾向於單語表示， U 矩陣更傾向於雙語表示。其過程如圖11。

06 基於預訓練的方法

[Devlin et al., 2018] 提出了 Multilingual BERT，與單語 BERT 結構一樣，使用共享的 Wordpiece 表示，使用了 104 中語言進行訓練。訓練時，無輸入語言標記，也沒有強制對齊的語料有相同的表示。[Pires et al., 2019] 分析了 Multilingual BERT 的多語言表徵能力，得出了幾點結論： 1.Multilingual BERT 的多語言表徵能力不僅僅依賴於共享的詞表，對於沒有重疊（overlap）辭彙語言的 zero-shot 任務，也可以完成的很好；語言越相似，效果越好；

2.對於語言順序（主謂賓或者形容詞名詞）不同的語言，效果不是很好；Multilingual BERT 的表示同時包含了多種語言共有的表示，同時也包含了語言特定的表示，這一結論， [Wu and Dredze, 2019] 在語言分類任務中也指出，Multilingual BERT 由於需要完成語言模型任務，所以需要保持一定的語言特定的表示來在詞表中選擇特定語言詞語。

[Lample and Conneau, 2019] 提出了基於多種語言預訓練的模型 XLMs，首先從單語語料庫中取樣一些句子，對於資源稀少的語言可以增加數量，對於資源豐富的語言可以減少數量，將所有語言使用統一 BPE 進行表示。使用三種語言模型目標來完成學習。前兩個是基於單語語料庫的，最後一個是基於雙語對齊數據的。第一種是 Causal Language Modeling (CLM)，根據之前的詞語預測下一個詞語。第二個是 Masked Language Modeling (MLM)，和 BERT 類似，但是使用一個詞語流，而非句子對。第三種是 Translation Language Modeling (TLM)，可以隨機 mask 掉其中一些兩種語言中的一些詞語，然後進行預測。其模型如圖12。

07 多語言機器翻譯

[Johnson et al., 2017] 使用一個模型來完成多種語言的機器翻譯任務。唯一的不同是輸入的開始需要拼接一個特殊的指示符，代表目標語言。例如 How are you? -> ¿Cómo estás? 需要修改為<2es> How are you? -> ¿Cómo estás?，代表該句將被翻譯為西班牙語。另一個核心點在於使用共享的 Wordpiece，利用 BPE 來完成。模型在訓練的時候，一個 mini-batch 中混合多個語言的平行數據。該模型的優點在於：簡單，只需要修改輸入數據就可以；可以提升資源稀缺數據的翻譯效果；支援直接的 zero-shot 翻譯任務。

[Escolano et al., 2019] 利用不同語言之間共有的詞表來作為知識遷移的橋樑，提出了兩種方法，progAdapt 和 progGrow。第一種方法 progAdapt 將一種語言對的翻譯任務遷移到另一種翻譯任務上，保留詞表中共享的部分，添加新任務的詞語，詞表大小保持不變，並使用新任務的數據。第二種方法 progGrow 利用遞增的方式來學習一個多語言的機器翻譯模型，將新語言的詞表添加到舊詞表上，並使用新舊任務一起的數據。如圖13。

[Pires et al., 2019] 指出 [Johnson et al., 2017, Escolano et al., 2019] 的問題在於當語言的詞表有顯著的不同時，例如中文，詞表會變得很大。因此提出了一種方法，每一種語言有自己的特定的編碼器和解碼器，編碼器和解碼器之間不共享參數。對於一個翻譯對 X-Y，會完成自編碼任務（X-X， Y-Y）和翻譯任務（X-Y， Y-X），同時會要求編碼器得到的兩種表示相近。新來一種語言以後 Z，假設目前有 Z-X 的平行語料，只需要添加 Z 語言的編碼器，然後固定住 X 語言的解碼器參數來進行訓練，這個過程只更新 Z 編碼器的參數。如圖14。

[Kim et al., 2019] 也認為，訓練一個共享的多語言機器翻譯模型一方面需要語言之間相關，以此來構建一個共享的詞表，另一方面當增加一種語言時，如果該語言的辭彙不在現有此表中，詞表需要更新，模型需要重新訓練。因此在多語言機器翻譯或者遷移學習的設定下，距離較遠的語言詞表不匹配（vocabulary mismatch）是一個急需解決的問題。因此提出了一種在向量空間完成隱式翻譯的方法，本質上是使用了跨語言詞向量。當需要添加一種新的語言 t 時，首先訓練語言 t 的單語詞向量，然後將已經訓練好的機器翻譯模型的詞向量參數矩陣取出，在兩者之間學習一個線性映射W，用於將新的語言 t 轉換到模型的語義空間下，該方法不需要重新更新詞表或者重新訓練模型，由於在向量空間完成了隱式對齊，當新的語言句子輸入以後，會首先通過 W 矩陣來把單語向量空間映射到模型的語義空間，然後接著訓練。這種方法雖然確實沒有顯式的兩個詞表對齊、增加、替換的過程。但實際上在學習完映射矩陣 W 以後，將新語言的詞向量經過映射替換到訓練好的模型中，實際上已經隱式的完成了詞表的替換，這個映射過後的向量參數矩陣也會隨著訓練來更新。除此以外，新的語言和原來的語言可能語序不同，因此在訓練原機器翻譯模型時，會在輸入端通過隨機插入、刪除，交換來引入一些噪音。例如 Ich arbeite hier 通過交換以後變為 Ich hier arbeite。同時由於新語言往往是低資源語言，這裡沒有使用 back translation 來構建新的語料。而是原來語言數據和新語言數據詞表重合的部分保留，其他替換為 unk 來構建偽語料。例如德語數據 Hallo,John!會變為巴斯克語數據 <unk>,John! 保留了共有部分 John。

[Vázquez et al., 2019] 利用一個語言共享的自注意力機制（attention bridge）來將不同語言編碼到同一空間。不同語言的編碼器和解碼器不共享參數，在使用 LSTM 得到特定語言的表示以後，使用共享的 attention bridge 得到語言無關表示，用來初始化解碼器的初始狀態。

08 相關論文

[Liu et al., 2019] 利用一種共享-私有（Shared-Private）詞向量來建模源語言詞向量和目標語言詞向量之間的關係，以及減少模型參數量。其核心想法在於，詞向量的一部分是語言無關的，是共享的，另一部分是語言相關的，是私有的。並提出了三種共享關係，相似詞語表示()、相同詞形()、不相關()。如圖15。利用 fast-align 首先根據一定的閾值找到語義對齊的詞語。具體實現時，拿源語言詞向量矩陣來舉例，該矩陣由三個部分構成，，分別代表了三種共享關係詞語的表示，每個詞語只屬於其中一種關係，並按照上述順序的優先順序來排序。其中每一種共享關係由共享部分和私有部分組成，例如 lm 部分，，其中代表語言和目標語言共有的，代表源語言私有的。整個實現由矩陣拼接完成。

[Kumar et al., 2019] 利用資源豐富的語言來輔助資源稀少語言的問題生成任務，該任務輸入句子，輸出問題。並構建了一個新的印度語的問題生成數據集 HiQuAD。其具體做法為：首先使用降噪自編碼器（DAE）和反向翻譯（back translation）來完成模型的預訓練，然後在監督學習部分，分別使用各自數據進行訓練。其模型在編碼器部分和解碼器部分會共享部分參數。其模型如圖16。

[Duan et al., 2019, Shen et al., 2018] 利用知識蒸餾結合機器翻譯來完成跨語言句子摘要任務。其核心想法為使用現有句子摘要數據集訓練教師模型，為跨語言句子摘要模型提供監督訊號。同時還利用目標輸入句作為中間橋樑，來利用兩個方向的注意力權重來指導生成。其基本執行流程如圖17。

參考文獻

Waleed Ammar, George Mulcaire, Yulia Tsvetkov, Guillaume Lample, Chris Dyer, and Noah ASmith. Massively multilingual word embeddings. arXiv preprint arXiv:1602.01925, 2016.

Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho. Unsupervised neural machine translation. arXiv preprint arXiv:1710.11041, 2017.

Alexis Conneau, Guillaume Lample, Marc』Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou.Word translation without parallel data. arXiv preprint arXiv:1710.04087, 2017.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

Xiangyu Duan, Mingming Yin, Min Zhang, Boxing Chen, and Weihua Luo. Zero-shot cross-lingual abstractive sentence summarization through teaching generation and attention. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 3162–3172, Florence,Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/ anthology/P19-1305.

Long Duong, Hiroshi Kanayama, Tengfei Ma, Steven Bird, and Trevor Cohn. Learning crosslingual word embeddings without bilingual corpora. arXiv preprint arXiv:1606.09403, 2016.

Carlos Escolano, Marta R Costa-Jussà, and José AR Fonollosa. From bilingual to multilingual neural machine translation by incremental training. arXiv preprint arXiv:1907.00735, 2019.

Stephan Gouws and Anders Søgaard. Simple task-specifc bilingual word embeddings. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1386–1390, 2015.

Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Viégas, Martin Wattenberg, Greg Corrado, et al. Google』 s multilingual neural machine translation system: Enabling zero-shot translation. Transactions of the Association for Computational Linguistics, 5:339–351, 2017.

Yunsu Kim, Yingbo Gao, and Hermann Ney. Eﬀective cross-lingual transfer of neural machine translation models without shared vocabularies. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1246–1257, Florence, Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/P19-1120.

Vishwajeet Kumar, Nitish Joshi, Arijit Mukherjee, Ganesh Ramakrishnan, and Preethi Jyothi. Cross-lingual training for automatic question generation. arXiv preprint arXiv:1906.02525, 2019.

Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019.

Guillaume Lample, Alexis Conneau, Ludovic Denoyer, and Marc』Aurelio Ranzato. Unsupervised machine translation using monolingual corpora only. arXiv preprint arXiv:1711.00043, 2017.

Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer, and Marc』Aurelio Ranzato.Phrase-based & neural unsupervised machine translation. arXiv preprint arXiv:1804.07755, 2018.

Xuebo Liu, Derek F. Wong, Yang Liu, Lidia S. Chao, Tong Xiao, and Jingbo Zhu. Shared-private bilingual word embeddings for neural machine translation. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 3613–3622, Florence, Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/P19-1352.

Tomas Mikolov, Kai Chen, Greg Corrado, and Jeﬀrey Dean. Efcient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013a.

Tomas Mikolov, Quoc V Le, and Ilya Sutskever. Exploiting similarities among languages for machine translation. arXiv preprint arXiv:1309.4168, 2013b.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeﬀ Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013c.

Telmo Pires, Eva Schlinger, and Dan Garrette. How multilingual is multilingual BERT? In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 4996–5001, Florence, Italy, July 2019. Association for Computational Linguistics. URL https: //www.aclweb.org/anthology/P19-1493.

Sebastian Ruder, Ivan Vulić, and Anders Søgaard. A survey of cross-lingual word embedding models. arXiv preprint arXiv:1706.04902, 2017.

Shi-qi Shen, Yun Chen, Cheng Yang, Zhi-yuan Liu, and Mao-song Sun. Zero-shot cross-lingual neural headline generation. IEEE/ACM Transactions on Audio, Speech and Language Processing(TASLP), 26(12):2319–2327, 2018

Raúl Vázquez, Alessandro Raganato, Jörg Tiedemann, and Mathias Creutz. Multilingual NMT with a language-independent attention bridge. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 33–39, Florence, Italy, August 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/W19-4305.

Shijie Wu and Mark Dredze. Beto, bentz, becas: The surprising cross-lingual eﬀectiveness of bert.arXiv preprint arXiv:1904.09077, 2019.

Min Xiao and Yuhong Guo. Distributed word representation learning for cross-lingual dependency parsing. In Proceedings of the Eighteenth Conference on Computational Natural Language Learning, pages 119–129, 2014.

Chao Xing, Dong Wang, Chao Liu, and Yiye Lin. Normalized word embedding and orthogonal transform for bilingual word translation. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1006–1011, 2015.

作者：匿名俠

編輯：葡萄媛

方便交流學習，備註：昵稱-學校（公司）-方向，進入DL&NLP交流群。

方向有很多：機器學習、深度學習，python，情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。

【NLP】綜述 | 跨語言自然語言處理筆記

VirMach 便宜 VPS

QNews

【NLP】綜述 | 跨語言自然語言處理筆記

分享此文：

Related Posts

乾貨：Elasticsearch 壓測工具之 esrally的安裝與使用（上）

徹底解決Hive小文件問題

基礎篇 | 認識Rstudio

Neural machine Translation of Rare Words with Subword Units

VirMach 便宜 VPS

QNews

熱門搜尋