AI給AI論文寫了個摘要，網友戲稱為「摘要通過圖靈測試」，推特點贊上千

2019 年 10 月 4 日
筆記

銅靈發自凹非寺量子位出品 | 公眾號 QbitAI

這一次AI自己給AI論文生成了一次摘要。

今天，一個可為長文自動生成總結的Transformer語言模型論文在推特火了起來。

細心了網友看到論文摘要結尾，才發現一個斜體備註中寫著：上面的摘要不是作者寫的，而是由研究中展示的一個模型自動生成的。

以假亂真的生成品質，讓不少網友大吃一驚。並且，其生成方式也不一般：

研究證明了，即使沒有複製機制，Transformer語言模型在總結長篇科學文章方面也非常有效，並且效果優於傳統的seq2seq方法。

並且，與先前使用複製機制的研究相比，新方法生成的摘要更全，在用於評估自動生成的摘要和翻譯水平的ROUGE評測上，獲得了更高的分數。

這項研究被OpenAI研究科學家、牛津大學人類未來研究所研究員Miles Brundage的推薦和轉發，不到一天時間獲贊近2000，網友戲稱為這是一項「摘要圖靈測試」。

還有網友表示，在未來十年內，我們或許能看到第一篇transformer寫出的研究論文了。

所以，這個讓網友大吃一驚的總結摘要生成模型，到底是如何以假亂真的？

請看摘要↓

非複製機制

我們提出了一種新的方法，通過神經摘要式總結，可以為篇幅超過上千字的長文檔自動生成摘要。我們展示了一種在生成總結前的簡單提取步驟，在執行生成摘要任務前，會根據相關資訊，將其用於Transformer語言模型，幫助模型進行條件設置。實驗結果表明，這個步驟顯著提高了總體結果。我們還證明了，與之前使用複製機制（copy mechanism）的工作相比，這種方法生成了抽象的總結，並且還能取得更高的Rouge分數。

此前，摘要提取方法大多依據的是序列到序列（seq2seq）的學習方法，將關鍵詞識別定義為生成問題，輸出時將關鍵短語看作為詞序列。

為了這其中的控制參數數量只會選取其中出現頻率較高的辭彙，於是相對低頻且重要的辭彙就會在提取過程中被遺漏，於是就誕生了「複製機制」。

通過複製機制，模型解碼器的部分隱藏狀態當成特定的位置，不通過生成過程定義關鍵詞，而是直接複製。

這樣一來，就能保留原始文章中的重要資訊了，進而在輸出端生成出摘要。

而在這篇論文中提到，不通過複製機制也可以準確提取重點資訊。這是怎麼做到的？

Transformer語言模型

在論文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中，研究人員具體介紹了模型的架構。

這個模型提取科學論文的摘要是分階段的。

首先，句子指針網路（pointer network）從論文中提取出重要資訊。

接下來，這些提取過的句子會隨著完整文章一起按照順序進行排列：引言、抽取的句子、摘要和論文其他內容。Transformer語言模型就是在以這種格式組織的論文上進行訓練的。

在推理過程中，引言和提取的句子將作為上下文提供給語言模型，最終生成摘要。在新聞和專利領域，引言部分將被全文替代。

與此前大多數神經抽象概括方法不同，這種方法沒有使用帶有顯式編碼器和解碼器的seq2seq公式來生成單詞。

具體來說，研究人員使用單個類似GPT的Transformer 語言模型（TLM）進行訓練，在推理階段根據文檔從語言模型中生成摘要。

研究人員將這個任務一分為二，即提取步驟（extractive step）和抽象步驟。

為了處理超過幾千個單詞的超長文檔，他們先使用兩個不同的分層文檔模型對句子進行提取，一個基於指針網路，另一個基於句子分類器，這樣的結構保證在生成摘要前更好地調整Transformer語言模型的相關資訊。

研究人員選取了四種不同的大型長文檔摘要數據集，分別為arXiv、PubMed 、bigPatent和Newsroom，對模型進行測試，並用Rouge指標進行測試。

無論是針對arXiv上的科學論文：

還是NewsRoom上的新聞：

甚至是PubMed上的生物醫學方面的論文：

還是130萬份美國專利文獻記錄bigPatent ：

新方法TLM均優於此前摘要提取的baseline，並超越了先前提取結果。

作者介紹

這篇論文的共同一作共有三位，均來自Element AI。

包括蒙特利爾學習演算法研究所的Sandeep Subramanian，Raymond Li和蒙特利爾大學的Jonathan Pilault及Christopher Pal。

Element AI想必大家不會陌生，這是圖靈獎得主、蒙特利爾大學電腦系教授Yoshua Bengio創辦的創業孵化器，幫助來自蒙特利爾大學和McGill大學的AI創業者施展拳腳。

傳送門

On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

https://arxiv.org/abs/1909.03186