“自然语言处理(NLP)”【爱丁堡大学】基于实体模型的数据文本生成!!

  • 2020 年 2 月 12 日
  • 笔记

本文主要参考:https://zhuanlan.zhihu.com/p/96020318

引言

由于大规模数据集的使用和端到端训练的神经网络结构的应用,数据到文本生成显示出了巨大的潜力。这些模型通过表征学习适当地选择内容,连贯地组织内容,并按语法对其进行描述,将实体视为词汇标记。在这项工作中,我们提出了一个以实体为中心的神经网络架构来生成数据到文本。我们的模型创建了动态更新的特定实体表示。文本是在数据输入和实体内存表示的条件下生成的,在每个时间步使用分层注意。我们在RotoWire基准上进行了实验,并在自建的棒球域上新数据集(五倍大)。结果表明,该模型在自动评价和人工评价两方面均优于的基线。

本文概要

1

First Blood

2

Aced

3

Attention

正文开始

1

First Blood

TILE: Data-to-text Generation with Entity Modeling

Contributor : 爱丁堡大学

Paper: https://www.aclweb.org/anthology/P19-1195.pdf

Code: None

文章贡献

    1、提出了一种新颖的实体感知模型,以语言生成为目的,用于数据到文本的生成,不需要预处理;

    2、一个用于数据到文本生成的新数据集,作者希望它将鼓励这方面的进一步工作。

    3、一项全面的评估和比较研究,重点介绍了两个数据集上各种最近提出的数据到文本生成模型的优缺点

文章主要内容

模型简述

本文主要着重研究描述性文本生成。例如图1中所示的比赛摘要。如下图所示:

为此本文提出了一个以实体为中心的数据到文本生成的神经架构。这里并不是将实体作为普通的标记来处理,而是创建实体特定的表示(即。它会随着文本的生成而动态更新。模型通过解码器生成描述性文本,解码器为每个实体增加了一个内存单元和一个处理器。在解码器中的每个时间步,处理器都会计算实体的更新表示形式,作为候选实体内存与其先前值之间的插值。每个处理器都是一个门控循环神经网络,并且它们之间的参数是共享的。 该模型通过分层地遍历存储单元及其对应的记录来生成文本。模型具体流程图框架图如下所示:

    上图中,A框中主要表示实体存储网络图;B框和C框主要表示分层注意力图。

实验结果

本文贴出了在基准ROTOWIRE数据集(RW)(Wiseman et al., 2017)上的实验结果,该数据集包含NBA篮球比赛的统计数据和人们编写的摘要。此外,我们还为MLB创建了一个新的数据集(参见图1)。与ROTOWIRE相比,MLB的摘要更长(约为50%),输入记录更丰富、更结构化(添加了逐场播放)。此外,MLB数据集在数据大小方面是其5倍(即,成对的表格和比赛摘要)。将我们的实体模型与一系列最近提出的神经结构进行比较,包括编码器-解码器模型。我们的结果表明,对实体进行明确的建模是有益的,它不仅能让输出更连贯,而且输出更简洁和语法化。

    使用关系生成(RG)计数(#)和精度(P%)评估ROTOWIRE (RW)和MLB测试集,内容选择(CS)精度(P%)和召回(R%),标准化Damerau-Levenshtein距离(DLD%)中的内容排序(CO)和BLEU。如下图所示:

    对ROTOWIRE (RW)和MLB开发集的Ablation结果使用关系生成(RG)计数(#)和精度(P%)、内容选择(CS)精度(P%)和回忆(R%)、标准化Damerau-Levenshtein距离(DLD%)中的内容排序(CO)和BLEU。

    ROTOWIRE上NCP+CC(上)和ENT(下)的模型输出示例。摘要中重复出现的实体是黑体和彩色编码的,单例显示为黑色.

    在ROTOWIRE和MLB数据集中,比赛摘要中支持和反对的平均数量以及最佳缩放评估(越高越好)。

2

Aced

自然语言NLP(NLG+NLU)资料大全(持续更新….)

GitHub: https://github.com/yinizhilian/NLP_Share

相关论文集(持续更新….)

GitHub: https://github.com/yinizhilian/ACL_Paper

Attention:欢迎关注AINLPer微信公众号,了解更多最新的关于深度学习、自然语言处理相关的知识。