寫論文摘要很痛苦?一鍵生成神器了解一下
- 2019 年 10 月 4 日
- 筆記
圖靈TOPIA
作者:Subramanian
編譯:劉靜
圖靈聯邦編輯部出品
誰能想到寫個論文摘要還能有劇情反轉?!
請仔細觀察這篇論文的標題和摘要:

標題:利用Transformer語言模型對文檔主題進行提取和抽象總結
摘要:我們展示了一個方法來產出長文稿的抽象摘要……(以下省略200字)…註:以上的摘要都不是作者自己寫的,而是用本論文里描述的模型生成的 。
沒錯,這篇論文的核心思想就是利用Transformer幫大家自動寫摘要,而令廣大網友拍案叫絕的是,該論文的摘要就是用文中描述的方法生成的!
每次被論文摘要憋壞的你,有沒有眼前一亮?
其實自動摘要技術解決的問題描述很簡單,就是用一些精鍊的話來概括整片文章的大意,用戶通過讀文摘就可以了解到原文要表達的意思。
問題解決的思路有兩種
- 一種是Extractive抽取式的,就是從原文中找到一些關鍵的句子,組合成一篇摘要。
- 另外一種是Abstractive摘要式的,這就需要電腦可以讀懂原文的內容,並且用自己的意思變大出來。
現階段,相對成熟的是抽取式方案,有很多很多演算法,也有一些baseline測試,但得到的摘要效果差強人意。
對後者的研究並不是很多,人類語言包括字、詞、短語、句子、段落、文檔這幾個level,研究難度依次遞增,理解句子、段落尚且困難,何況是文檔,這是摘要生成最大的難點。
本文所用的方法就是Abstractive摘要式,重點是:研究人員在生成摘要之前執行一個簡單的提取步驟,然後使用該步驟根據相關資訊對transformer語言模型進行條件設置,然後再執行生成摘要的任務。
實驗結果表明,該提取步驟顯著改善了摘要結果。

圖1:為科技論文的抽象摘要提出的模型
本文的舊版本顯示為參考文檔。首先,句子指針網路從論文中提取重要的句子。
接下來,這些句子和整篇科學文章一起提供,按照如下順序排列:引言、提取的句子、摘要和論文的其餘部分。
transformer語言模型是針對以這種格式組織的文章進行訓練的。
在推理過程中,將引言和提取的句子作為上下文提供給語言模型,生成摘要。在新聞和專利文件等領域,引言被整個文檔所替代。
transformer極其適合總結科技長文
研究人員表明,與之前使用複製機制的工作相比,transformer語言模型在總結長篇科學文章方面出奇地有效。
這種方法生成了更抽象的摘要,同時仍然可以獲得更高的rouge評分,優於典型的seq2seq方法。
具體來說,研究人員使用與(Radford等人,2019)相同的transformer(Vaswani等人2017)語言模型(TLM)架構。
該模型有220M參數,20層,768維嵌入,3072維位置MLP和12個注意頭。
架構(據他們所知)的唯一區別是不會在初始化時縮放權重。使用單個Nvidia DGX-2盒子在16個V100 GPU上訓練語言模型5天。
使用線性上升學習速率表來進行前40,000次更新,最大學習率為2.5×e -4,然後使用Adam優化器在接下來的200,000步中將餘弦退火時間表設置為0。
使用混合精確訓練,批量大小為256個序列,每個1024個令牌。
為了得到一個無條件的語言模型來進行抽象概括,可以使用這樣一個事實,即LMs是通過對自回歸上的聯合分布進行因式分解來訓練的。
研究人員組織了LM的訓練數據,使得實況摘要遵循模型用於生成系統摘要的資訊。這樣可以在訓練期間模擬文檔和摘要的聯合分布,並從推理的給定文檔的條件分布中抽樣。
摘要生成結果更「抽象」
首先,原始摘要和以簡介為條件的TLM與原始文章具有小且非常相似的重疊分數。另一方面,文中提出的模型產生了更多的「抽象」摘要,證明了它的釋義能力。
該模型傾向於在引入條件和提取器的句子條件下複製較長的序列。
假設從文章中提取已經包含參考摘要中的大量單詞的提取句子,通過允許transformer從提取的句子中複製單詞和短語,使transformer的任務更容易。

表1:本文中使用的數據集的統計數據來自(Sharma, Li, and Wang 2019)——文檔/摘要對的數量、文檔中字數與摘要的比例以及摘要和文檔中的字數

表2:arXiv數據集的摘要結果

表3:定性結果——新聞文章和文中模型在NewsRoom數據集中生成摘要

表4:NewsRoom數據集上的摘要結果。之前的工作成果來自
具體論文:
https://arxiv.org/pdf/1909.03186.pdf