获奖论文:《Is MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translation》。 论文作者:Bryan Eikema Wilker Aziz。论文链接://www.aclweb.org/anthology/2020.coling-main.398.pdf论文介绍:最近的研究揭示了神经机器翻译(NMT)系统的许多病理(pathologies )。而解释这些病理的假设主要表明,NMT作为模型或其训练算法存在根本上的错误:最大似然估计(MLE)。这些证据大部分是使用最大后验(MAP)解码收集的,MAP是一种旨在识别最高概率排名翻译(即模式)的决策规则。我们认为,已有的证据足以证明MAP解码有缺陷,而不用模型及其训练算法产生怀疑。在本文工作中,我们证明了翻译分布确实可以很好地再现数据的各种统计信息,但是光束( beam search )搜索偏离了这些统计信息。本文表明,NMT的某些已知病理和偏差是由于MAP解码导致的,而不是由于NMT的统计假设或MLE引起的。
特别是,我们表明,该模型下最可能的翻译累积的概率质量( probability mass )很小,以致该模式实质上可以被认为是任意的。因此,我们提倡使用决策规则,该规则应全面考虑翻译概率分布。
我们表明了最小化贝叶斯风险解码的近似值可以提供有竞争力的结果,得以来证实NMT模型确实很好地捕捉到了翻译的重要方面。2
最佳短论文
获奖论文:《On the Practical Ability of Recurrent Neural Networks to Recognize Hierarchical Languages 》。 论文链接://www.aclweb.org/anthology/2020.coling-main.129.pdf论文作者:Satwik Bhattamishra、Kabir Ahuja、Navin Goyal。论文介绍:虽然递归(循环)模型在NLP任务中十分有效,但它们在上下文无关语言(CFL)上的性能却很差。考虑到CFL被认为是捕获到了自然语言中的某种重要现象,例如层次结构,所以说递归(循环)模型的这种性能差异需要作出进一步解释。本文我们研究了Dyck-n语言(一种特别重要且经过充分研究的CFL类(class))上的递归模型的性能。我们发现,如果训练和测试字符串的长度保持在相同范围内,递归模型的泛化效果几乎完美,但是如果测试字符串比较长的时候,它们的性能将表现地很差。与此同时,我们观察到递归模型的表达能力足以识别深度有限的任意长度的Dyck单词。因此,我们对由深度有限的Dyck语言生成的样本模型进行评估,发现它们确实能够推广到更长的单词长度上。由于自然语言数据集具有嵌套的深度依存关系,因此尽管先前的工作表明Dyck语言上的泛化性能较差,但是这可能有助于解释为什么它们在对自然语言数据的层次依存关系建模时表现良好。我们最后进行了实证研究并与“Transformer”进行比较以支持我们的结果。 3
最佳工业(Industry)论文
获奖论文:《Leveraging User Paraphrasing Behavior In Dialog Systems To Automatically Collect Annotations For Long-Tail Utterances》。 论文链接://www.aclweb.org/anthology/2020.coling-industry.3.pdf论文作者:Tobias Falke, Markus Boese, Daniil Sorokin, Caglar Tirkaz and Patrick Lehnen。论文介绍:在大规模的商业对话系统中,用户以各种各样的替代方式表达相同的请求,而替代方法却存在长尾分布。处理这种分布的全部范围很具有挑战性,特别是在依靠手动注释时。但是,相同的用户还提供了有用的隐式反馈,因为如果对话系统无法理解对话,它们则通常会解释对话。我们提出了MARUPA,这是一种通过创建带有注释的训练示例来利用此类反馈的方法。MARUPA以全自动方式创建新数据,而无需人工干预或注释人员的努力,特别是针对当前失败的对话(utterance)而言。
通过在新数据上训练对话系统,可以提高长尾语音的准确性和覆盖范围。最后,我们在实验中详细研究了这种方法在跨各种领域和三种语言的商业对话系统中的有效性。文末彩蛋之GatherTown