写论文摘要很痛苦?一键生成神器了解一下
- 2019 年 10 月 4 日
- 筆記
图灵TOPIA
作者:Subramanian
编译:刘静
图灵联邦编辑部出品
谁能想到写个论文摘要还能有剧情反转?!
请仔细观察这篇论文的标题和摘要:

标题:利用Transformer语言模型对文档主题进行提取和抽象总结
摘要:我们展示了一个方法来产出长文稿的抽象摘要……(以下省略200字)…注:以上的摘要都不是作者自己写的,而是用本论文里描述的模型生成的 。
没错,这篇论文的核心思想就是利用Transformer帮大家自动写摘要,而令广大网友拍案叫绝的是,该论文的摘要就是用文中描述的方法生成的!
每次被论文摘要憋坏的你,有没有眼前一亮?
其实自动摘要技术解决的问题描述很简单,就是用一些精炼的话来概括整片文章的大意,用户通过读文摘就可以了解到原文要表达的意思。
问题解决的思路有两种
- 一种是Extractive抽取式的,就是从原文中找到一些关键的句子,组合成一篇摘要。
- 另外一种是Abstractive摘要式的,这就需要计算机可以读懂原文的内容,并且用自己的意思变大出来。
现阶段,相对成熟的是抽取式方案,有很多很多算法,也有一些baseline测试,但得到的摘要效果差强人意。
对后者的研究并不是很多,人类语言包括字、词、短语、句子、段落、文档这几个level,研究难度依次递增,理解句子、段落尚且困难,何况是文档,这是摘要生成最大的难点。
本文所用的方法就是Abstractive摘要式,重点是:研究人员在生成摘要之前执行一个简单的提取步骤,然后使用该步骤根据相关信息对transformer语言模型进行条件设置,然后再执行生成摘要的任务。
实验结果表明,该提取步骤显著改善了摘要结果。

图1:为科技论文的抽象摘要提出的模型
本文的旧版本显示为参考文档。首先,句子指针网络从论文中提取重要的句子。
接下来,这些句子和整篇科学文章一起提供,按照如下顺序排列:引言、提取的句子、摘要和论文的其余部分。
transformer语言模型是针对以这种格式组织的文章进行训练的。
在推理过程中,将引言和提取的句子作为上下文提供给语言模型,生成摘要。在新闻和专利文件等领域,引言被整个文档所替代。
transformer极其适合总结科技长文
研究人员表明,与之前使用复制机制的工作相比,transformer语言模型在总结长篇科学文章方面出奇地有效。
这种方法生成了更抽象的摘要,同时仍然可以获得更高的rouge评分,优于典型的seq2seq方法。
具体来说,研究人员使用与(Radford等人,2019)相同的transformer(Vaswani等人2017)语言模型(TLM)架构。
该模型有220M参数,20层,768维嵌入,3072维位置MLP和12个注意头。
架构(据他们所知)的唯一区别是不会在初始化时缩放权重。使用单个Nvidia DGX-2盒子在16个V100 GPU上训练语言模型5天。
使用线性上升学习速率表来进行前40,000次更新,最大学习率为2.5×e -4,然后使用Adam优化器在接下来的200,000步中将余弦退火时间表设置为0。
使用混合精确训练,批量大小为256个序列,每个1024个令牌。
为了得到一个无条件的语言模型来进行抽象概括,可以使用这样一个事实,即LMs是通过对自回归上的联合分布进行因式分解来训练的。
研究人员组织了LM的训练数据,使得实况摘要遵循模型用于生成系统摘要的信息。这样可以在训练期间模拟文档和摘要的联合分布,并从推理的给定文档的条件分布中抽样。
摘要生成结果更“抽象”
首先,原始摘要和以简介为条件的TLM与原始文章具有小且非常相似的重叠分数。另一方面,文中提出的模型产生了更多的“抽象”摘要,证明了它的释义能力。
该模型倾向于在引入条件和提取器的句子条件下复制较长的序列。
假设从文章中提取已经包含参考摘要中的大量单词的提取句子,通过允许transformer从提取的句子中复制单词和短语,使transformer的任务更容易。

表1:本文中使用的数据集的统计数据来自(Sharma, Li, and Wang 2019)——文档/摘要对的数量、文档中字数与摘要的比例以及摘要和文档中的字数

表2:arXiv数据集的摘要结果

表3:定性结果——新闻文章和文中模型在NewsRoom数据集中生成摘要

表4:NewsRoom数据集上的摘要结果。之前的工作成果来自
具体论文:
https://arxiv.org/pdf/1909.03186.pdf