AI給AI論文寫了個摘要,網友戲稱為「摘要通過圖靈測試」,推特點贊上千
- 2019 年 10 月 4 日
- 筆記
銅靈 發自 凹非寺 量子位 出品 | 公眾號 QbitAI
這一次AI自己給AI論文生成了一次摘要。
今天,一個可為長文自動生成總結的Transformer語言模型論文在推特火了起來。
細心了網友看到論文摘要結尾,才發現一個斜體備註中寫著:上面的摘要不是作者寫的,而是由研究中展示的一個模型自動生成的。

以假亂真的生成品質,讓不少網友大吃一驚。並且,其生成方式也不一般:
研究證明了,即使沒有複製機制,Transformer語言模型在總結長篇科學文章方面也非常有效,並且效果優於傳統的seq2seq方法。
並且,與先前使用複製機制的研究相比,新方法生成的摘要更全,在用於評估自動生成的摘要和翻譯水平的ROUGE評測上,獲得了更高的分數。

這項研究被OpenAI研究科學家、牛津大學人類未來研究所研究員Miles Brundage的推薦和轉發,不到一天時間獲贊近2000,網友戲稱為這是一項「摘要圖靈測試」。
還有網友表示,在未來十年內,我們或許能看到第一篇transformer寫出的研究論文了。
所以,這個讓網友大吃一驚的總結摘要生成模型,到底是如何以假亂真的?
請看摘要↓
非複製機制
我們提出了一種新的方法,通過神經摘要式總結,可以為篇幅超過上千字的長文檔自動生成摘要。 我們展示了一種在生成總結前的簡單提取步驟,在執行生成摘要任務前,會根據相關資訊,將其用於Transformer語言模型,幫助模型進行條件設置。 實驗結果表明,這個步驟顯著提高了總體結果。我們還證明了,與之前使用複製機制(copy mechanism)的工作相比,這種方法生成了抽象的總結,並且還能取得更高的Rouge分數。
此前,摘要提取方法大多依據的是序列到序列(seq2seq)的學習方法,將關鍵詞識別定義為生成問題,輸出時將關鍵短語看作為詞序列。
為了這其中的控制參數數量只會選取其中出現頻率較高的辭彙,於是相對低頻且重要的辭彙就會在提取過程中被遺漏,於是就誕生了「複製機制」。
通過複製機制,模型解碼器的部分隱藏狀態當成特定的位置,不通過生成過程定義關鍵詞,而是直接複製。
這樣一來,就能保留原始文章中的重要資訊了,進而在輸出端生成出摘要。
而在這篇論文中提到,不通過複製機制也可以準確提取重點資訊。這是怎麼做到的?
Transformer語言模型
在論文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中,研究人員具體介紹了模型的架構。
這個模型提取科學論文的摘要是分階段的。
首先,句子指針網路(pointer network)從論文中提取出重要資訊。
接下來,這些提取過的句子會隨著完整文章一起按照順序進行排列:引言、抽取的句子、摘要和論文其他內容。Transformer語言模型就是在以這種格式組織的論文上進行訓練的。
在推理過程中,引言和提取的句子將作為上下文提供給語言模型,最終生成摘要。在新聞和專利領域,引言部分將被全文替代。

與此前大多數神經抽象概括方法不同,這種方法沒有使用帶有顯式編碼器和解碼器的seq2seq公式來生成單詞。
具體來說,研究人員使用單個類似GPT的Transformer 語言模型(TLM)進行訓練,在推理階段根據文檔從語言模型中生成摘要。
研究人員將這個任務一分為二,即提取步驟(extractive step)和抽象步驟。
為了處理超過幾千個單詞的超長文檔,他們先使用兩個不同的分層文檔模型對句子進行提取,一個基於指針網路,另一個基於句子分類器,這樣的結構保證在生成摘要前更好地調整Transformer語言模型的相關資訊。
研究人員選取了四種不同的大型長文檔摘要數據集,分別為arXiv、PubMed 、bigPatent和Newsroom,對模型進行測試,並用Rouge指標進行測試。
無論是針對arXiv上的科學論文:

還是NewsRoom上的新聞:

甚至是PubMed上的生物醫學方面的論文:

還是130萬份美國專利文獻記錄bigPatent :

新方法TLM均優於此前摘要提取的baseline,並超越了先前提取結果。
作者介紹
這篇論文的共同一作共有三位,均來自Element AI。
包括蒙特利爾學習演算法研究所的Sandeep Subramanian,Raymond Li和蒙特利爾大學的Jonathan Pilault及Christopher Pal。
Element AI想必大家不會陌生,這是圖靈獎得主、蒙特利爾大學電腦系教授Yoshua Bengio創辦的創業孵化器,幫助來自蒙特利爾大學和McGill大學的AI創業者施展拳腳。
傳送門
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
https://arxiv.org/abs/1909.03186