面向神經機器翻譯的篇章級單語修正模型
- 2019 年 10 月 31 日
- 筆記
劉輝,東北大學自然語言處理實驗室2018級研究生,研究方向為機器翻譯。
東北大學自然語言處理實驗室由姚天順教授創建於 1980 年,現由朱靖波教授、肖桐博士領導,長期從事計算語言學的相關研究工作,主要包括機器翻譯、語言分析、文本挖掘等。團隊研發的支援140種語言互譯的小牛翻譯系統已經得到廣泛應用。
《面向神經機器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關於篇章級神經機器翻譯的工作。針對篇章級雙語數據稀缺的問題,這篇文章探討了如何利用篇章級單語數據來提升最終性能,提出了一種基於目標端單語的篇章級修正模型(DocRepair),用來修正傳統的句子級翻譯結果。

1、背景
近幾年來,神經機器翻譯迅速發展,google在2017年提出的Transformer模型[2]更是使得翻譯品質大幅提升,在某些領域已經可以達到和人類媲美的水平[3]。然而,如今的大部分機器翻譯系統仍是基於句子級的,無法利用篇章級的上下文資訊,如何在機器翻譯過程中有效利用篇章級資訊是當今的研究熱點之一。
隨著基於自注意力機制的Transformer模型在機器翻譯任務中廣泛應用,許多之前基於循環神經網路(RNN)機器翻譯模型的篇章級方法不再適用。最近,許多研究人員嘗試對Transformer進行改進,在編碼或解碼階段引入上下文資訊。Voita等人[4]首先提出了一種基於Transformer的模型(圖1)的篇章級翻譯模型,在傳統的模型之外,額外增加了一個上下文編碼器(context encoder)用來編碼上下文資訊,然後和當前句子的編碼結果進行融合,送到解碼器。張嘉誠等人[5]採用了另外一種做法,分別在編碼器和解碼器中增加了一個上下文注意力(context attention)子層(圖2)用來引入上下文資訊。還有一些研究人員嘗試使用二階段(two-pass)模型的方式[6][7],首先進行句子級解碼,然後使用一個篇章級解碼器結合句子級解碼結果和源語上下文編碼來進行篇章級解碼。此外,一些工作對篇章級翻譯需要引入那些上下文資訊進行了探究。
上述工作在機器翻譯的過程中引入上下文資訊,將篇章級翻譯作為一個整體過程。這種方式建模更加自然,但是需要足夠的篇章級雙語數據進行訓練。然而,實際中篇章級雙語數據很難獲取,作者就是針對篇章級雙語數據稀缺的問題提出了DocRepair模型。

2、DocRepair模型
和二階段的方法類似,DocRepair模型也是對句子級結果的修正,但是不同點在於,DocRepair模型僅僅需要使用單語數據。作為一個單語的序列到序列模型(seq2seq)模型,DocRepair模型需要將上下文不一致的句子組映射到一個一致的結果,來解決上下文的不一致性,過程如圖2。

模型的訓練語料來自於容易獲取的篇章級單語語料。單語數據中上下文一致的句子組作為模型輸出,而通過round-trip的方式構建的上下文不一致的句子組作為模型輸入。round-trip分為兩個階段,需要正向和反向兩個翻譯系統。首先使用反向的翻譯模型將目標端的篇章級單語數據翻譯到源語端,得到丟失了句子間上下文資訊的源語結果,然後通過正向的翻譯模型將源語結果翻譯回目標端,得到最終需要的上下文不一致的目標端數據,整體流程如圖3所示。

DocRepair模型採用了標準的Transformer結構(圖4),模型輸入為不包含上下文資訊的句子序列,通過一個分隔令牌連接成一個長序列,模型輸出為修正後的上下文一致的序列,去掉分隔令牌得到最終結果。

作者提出的這種結構可以看作一個自動後編輯系統,獨立於翻譯模型,最大的優點就在於只需要使用目標端單語數據就能構造訓練集。相對應的,這種方法引入了額外的結構,增加了整體系統的複雜度,使得訓練和推理代價變大。同時,由於僅僅在目標端根據翻譯結果進行修正,完全沒有引入源語端的資訊,DocRepair模型可能沒有充分考慮到上下文資訊。之前的一些工作也證實了源語端上下文資訊在篇章級機器翻譯中的作用,如何利用源語端的單語數據來更好地提取上下文資訊也是未來一個值得研究的方向。
3、實驗
為了驗證方法的有效性,作者從BLEU、篇章級專用測試集和人工評價三個角度進行了對比實驗。實驗在英俄任務上進行,數據集使用了開放數據集OpenSubtitles2018。

表1是DcoRepair的對比實驗結果。其中,baseline採用了Transformer base模型,CADec[7]為一個兩階段的篇章級翻譯模型。同時,為了驗證DocRepair模型在篇章級翻譯上有效性,而不僅僅是因為對句子進行後編輯使得翻譯品質提升,同樣訓練了一個基於句子級的repair模型。可以看到,DocRepair在篇章級機器翻譯上是有效的,比sentence-level repair模型高出0.5 BLEU,同時對比baseline和CADec有0.7 BLEU的提升。

人工評價使用了來自通用測試集的700個樣例,不包含DocrePair模型完全複製輸入的情況。如表2所示,52%的樣例被人工標註成具有相同的品質,剩餘的樣例中,73%被認為DocrePair輸出更有優勢,同樣證實了模型的有效性。
為了分析DocRepair對篇章級翻譯中特定問題的有效性,作者在專為英俄篇章級翻譯現象構造的數據集[9]上進行了驗證,結果如表3。deixis代表了句子間的指代問題,lex.c表示篇章中實體翻譯的一致性問題,ell.infl和ell.VP分別對應了源語端中包含而目標語端不存在的名詞形態和動詞省略現象。

在指代、辭彙選擇和名詞形態省略問題中,DocRepair具有明顯優勢,而在動詞省略問題中,DocRepair模型對比CADec低了5百分點。可能的原因是DocRepair模型僅僅依賴於目標端單語,而採用round-trip方式構造的訓練集中很少包含動詞缺失的樣本,使得模型很難做出正確預測。

為了驗證單語數據的局限性,作者在DocRepair模型上進行了不同數據構造方式的對比實驗,結果如表4。one-way表示拿雙語數據中的源語替換round-trip的第一步反向過程。可以看出,one-way的方式要整體高於round-trip方式,而其中對於round-trip方式最難的問題就是動詞省略。
4、總結
這篇工作提出了完全基於目標端單語的DocRepair模型,用來修正機器翻譯結果,解決篇章級不一致性。同時對DcoRepair在具體篇章級問題中的性能進行了分析,指出了僅僅依賴於單語數據和round-trip的構造方式的局限性。
以往的工作大多關注於在解碼過程中如何融合上下文資訊,但是性能往往受限於篇章級雙語數據的稀缺。這篇工作為我們提供了一個新思路,可以避免雙語數據稀缺的問題,但是也引出了一個新的問題。篇章級翻譯的目標是解決傳統句子級翻譯中丟失句子間上下文資訊的問題,而在這種後編輯的方法中,僅僅使用了目標端的一組沒有上下文一致性的翻譯結果就可以通過單語修正模型獲得一致性的結果,缺乏對源語的關注。筆者認為,在雙語稀缺的情況下,如何更好的引入源語上下文資訊也是一個有趣的問題。
參考文獻
[1] Voita, Elena, Rico Sennrich, and Ivan Titov. "Context-Aware Monolingual Repair for Neural Machine Translation." arXiv preprint arXiv:1909.01383 (2019).
[2] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.
[3] Hassan, Hany, et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018).
[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). Context-aware neural machine translation learns anaphora resolution. arXiv preprint arXiv:1805.10163.
[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). Improving the transformer translation model with document-level context. arXiv preprint arXiv:1810.03581.
[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019, July). Modeling coherence for discourse neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7338-7345).
[7] Voita, E., Sennrich, R., & Titov, I. (2019). When a Good Translation is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion. arXiv preprint arXiv:1905.05979.