獲獎論文:《Is MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translation》。 論文作者:Bryan Eikema Wilker Aziz。論文鏈接://www.aclweb.org/anthology/2020.coling-main.398.pdf論文介紹:最近的研究揭示了神經機器翻譯(NMT)系統的許多病理(pathologies )。而解釋這些病理的假設主要表明,NMT作為模型或其訓練演算法存在根本上的錯誤:最大似然估計(MLE)。這些證據大部分是使用最大後驗(MAP)解碼收集的,MAP是一種旨在識別最高概率排名翻譯(即模式)的決策規則。我們認為,已有的證據足以證明MAP解碼有缺陷,而不用模型及其訓練演算法產生懷疑。在本文工作中,我們證明了翻譯分布確實可以很好地再現數據的各種統計資訊,但是光束( beam search )搜索偏離了這些統計資訊。本文表明,NMT的某些已知病理和偏差是由於MAP解碼導致的,而不是由於NMT的統計假設或MLE引起的。
特別是,我們表明,該模型下最可能的翻譯累積的概率品質( probability mass )很小,以致該模式實質上可以被認為是任意的。因此,我們提倡使用決策規則,該規則應全面考慮翻譯概率分布。
我們表明了最小化貝葉斯風險解碼的近似值可以提供有競爭力的結果,得以來證實NMT模型確實很好地捕捉到了翻譯的重要方面。2
最佳短論文
獲獎論文:《On the Practical Ability of Recurrent Neural Networks to Recognize Hierarchical Languages 》。 論文鏈接://www.aclweb.org/anthology/2020.coling-main.129.pdf論文作者:Satwik Bhattamishra、Kabir Ahuja、Navin Goyal。論文介紹:雖然遞歸(循環)模型在NLP任務中十分有效,但它們在上下文無關語言(CFL)上的性能卻很差。考慮到CFL被認為是捕獲到了自然語言中的某種重要現象,例如層次結構,所以說遞歸(循環)模型的這種性能差異需要作出進一步解釋。本文我們研究了Dyck-n語言(一種特別重要且經過充分研究的CFL類(class))上的遞歸模型的性能。我們發現,如果訓練和測試字元串的長度保持在相同範圍內,遞歸模型的泛化效果幾乎完美,但是如果測試字元串比較長的時候,它們的性能將表現地很差。與此同時,我們觀察到遞歸模型的表達能力足以識別深度有限的任意長度的Dyck單詞。因此,我們對由深度有限的Dyck語言生成的樣本模型進行評估,發現它們確實能夠推廣到更長的單詞長度上。由於自然語言數據集具有嵌套的深度依存關係,因此儘管先前的工作表明Dyck語言上的泛化性能較差,但是這可能有助於解釋為什麼它們在對自然語言數據的層次依存關係建模時表現良好。我們最後進行了實證研究並與「Transformer」進行比較以支援我們的結果。 3
最佳工業(Industry)論文
獲獎論文:《Leveraging User Paraphrasing Behavior In Dialog Systems To Automatically Collect Annotations For Long-Tail Utterances》。 論文鏈接://www.aclweb.org/anthology/2020.coling-industry.3.pdf論文作者:Tobias Falke, Markus Boese, Daniil Sorokin, Caglar Tirkaz and Patrick Lehnen。論文介紹:在大規模的商業對話系統中,用戶以各種各樣的替代方式表達相同的請求,而替代方法卻存在長尾分布。處理這種分布的全部範圍很具有挑戰性,特別是在依靠手動注釋時。但是,相同的用戶還提供了有用的隱式回饋,因為如果對話系統無法理解對話,它們則通常會解釋對話。我們提出了MARUPA,這是一種通過創建帶有注釋的訓練示例來利用此類回饋的方法。MARUPA以全自動方式創建新數據,而無需人工干預或注釋人員的努力,特別是針對當前失敗的對話(utterance)而言。
通過在新數據上訓練對話系統,可以提高長尾語音的準確性和覆蓋範圍。最後,我們在實驗中詳細研究了這種方法在跨各種領域和三種語言的商業對話系統中的有效性。文末彩蛋之GatherTown