多模態機器翻譯的視覺一致常規訓練 (CS CompLang)

  • 2019 年 12 月 30 日
  • 筆記

原文題目: Visual Agreement Regularized Training for Multi-Modal Machine Translation

摘要: 多模式機器翻譯旨在存在配對影像的情況下將源句子翻譯成另一種語言。先前的工作表明,附加的視覺資訊僅對翻譯提供了可有可無的幫助,這隻在幾種非常特殊的情況下(例如翻譯歧義詞)是必需的。為了更好地利用視覺資訊,這項工作提供了視覺協議常規培訓。所提出的方法共同訓練了源到目標和目標到源的翻譯模型,並鼓勵它們生成語義上等效的視覺單詞(例如英語中的「 ball」和法語中的「 ballon」)時,對視覺資訊共享相同的關注。 此外,還引入了一個簡單而有效的多頭共注意模型來捕獲視覺和文本特徵之間的交互。結果表明,在Multi30k數據集上,我們的方法可以大大優於競爭基準。進一步的分析表明,所提出的正規訓練可以有效地提高對影像的注意力一致性,從而更好地利用視覺資訊。

原文作者:Pengcheng Yang,Boxing Chen,Pei Zhang,Xu Sun

原文地址:https://arxiv.org/abs/1912.12014