寫論文摘要很痛苦？一鍵生成神器了解一下

2019 年 10 月 4 日
筆記

圖靈TOPIA

作者：Subramanian

編譯：劉靜

圖靈聯邦編輯部出品

誰能想到寫個論文摘要還能有劇情反轉？！

請仔細觀察這篇論文的標題和摘要：

標題：利用Transformer語言模型對文檔主題進行提取和抽象總結

摘要：我們展示了一個方法來產出長文稿的抽象摘要……（以下省略200字）…註：以上的摘要都不是作者自己寫的，而是用本論文里描述的模型生成的。

沒錯，這篇論文的核心思想就是利用Transformer幫大家自動寫摘要，而令廣大網友拍案叫絕的是，該論文的摘要就是用文中描述的方法生成的！

每次被論文摘要憋壞的你，有沒有眼前一亮？

其實自動摘要技術解決的問題描述很簡單，就是用一些精鍊的話來概括整片文章的大意，用戶通過讀文摘就可以了解到原文要表達的意思。

問題解決的思路有兩種

一種是Extractive抽取式的，就是從原文中找到一些關鍵的句子，組合成一篇摘要。
另外一種是Abstractive摘要式的，這就需要電腦可以讀懂原文的內容，並且用自己的意思變大出來。

現階段，相對成熟的是抽取式方案，有很多很多演算法，也有一些baseline測試，但得到的摘要效果差強人意。

對後者的研究並不是很多，人類語言包括字、詞、短語、句子、段落、文檔這幾個level，研究難度依次遞增，理解句子、段落尚且困難，何況是文檔，這是摘要生成最大的難點。

本文所用的方法就是Abstractive摘要式，重點是：研究人員在生成摘要之前執行一個簡單的提取步驟，然後使用該步驟根據相關資訊對transformer語言模型進行條件設置，然後再執行生成摘要的任務。

實驗結果表明，該提取步驟顯著改善了摘要結果。

圖1:為科技論文的抽象摘要提出的模型

本文的舊版本顯示為參考文檔。首先，句子指針網路從論文中提取重要的句子。

接下來，這些句子和整篇科學文章一起提供，按照如下順序排列：引言、提取的句子、摘要和論文的其餘部分。

transformer語言模型是針對以這種格式組織的文章進行訓練的。

在推理過程中，將引言和提取的句子作為上下文提供給語言模型，生成摘要。在新聞和專利文件等領域，引言被整個文檔所替代。

transformer極其適合總結科技長文

研究人員表明，與之前使用複製機制的工作相比，transformer語言模型在總結長篇科學文章方面出奇地有效。

這種方法生成了更抽象的摘要，同時仍然可以獲得更高的rouge評分，優於典型的seq2seq方法。

具體來說，研究人員使用與（Radford等人，2019）相同的transformer（Vaswani等人2017）語言模型（TLM）架構。

該模型有220M參數，20層，768維嵌入，3072維位置MLP和12個注意頭。

架構（據他們所知）的唯一區別是不會在初始化時縮放權重。使用單個Nvidia DGX-2盒子在16個V100 GPU上訓練語言模型5天。

使用線性上升學習速率表來進行前40,000次更新，最大學習率為2.5×e -4，然後使用Adam優化器在接下來的200,000步中將餘弦退火時間表設置為0。

使用混合精確訓練，批量大小為256個序列，每個1024個令牌。

為了得到一個無條件的語言模型來進行抽象概括，可以使用這樣一個事實，即LMs是通過對自回歸上的聯合分布進行因式分解來訓練的。

研究人員組織了LM的訓練數據，使得實況摘要遵循模型用於生成系統摘要的資訊。這樣可以在訓練期間模擬文檔和摘要的聯合分布，並從推理的給定文檔的條件分布中抽樣。

摘要生成結果更「抽象」

首先，原始摘要和以簡介為條件的TLM與原始文章具有小且非常相似的重疊分數。另一方面，文中提出的模型產生了更多的「抽象」摘要，證明了它的釋義能力。

該模型傾向於在引入條件和提取器的句子條件下複製較長的序列。

假設從文章中提取已經包含參考摘要中的大量單詞的提取句子，通過允許transformer從提取的句子中複製單詞和短語，使transformer的任務更容易。

表1:本文中使用的數據集的統計數據來自(Sharma, Li, and Wang 2019)——文檔/摘要對的數量、文檔中字數與摘要的比例以及摘要和文檔中的字數

表2：arXiv數據集的摘要結果

表3:定性結果——新聞文章和文中模型在NewsRoom數據集中生成摘要

表4:NewsRoom數據集上的摘要結果。之前的工作成果來自

具體論文：

https://arxiv.org/pdf/1909.03186.pdf

寫論文摘要很痛苦？一鍵生成神器了解一下

VirMach 便宜 VPS

QNews

​寫論文摘要很痛苦？一鍵生成神器了解一下

分享此文：

Related Posts

WPF 如何修改button圓角(經典)

【設計模式】趣說訪問者模式，頗有些無奈之舉

從極小到極大的思維突破網路數據的效率與安全

技術界與翻譯界的交鋒：機器翻譯離我們還有多遠？ | 清華AI Time

VirMach 便宜 VPS

QNews

熱門搜尋

寫論文摘要很痛苦？一鍵生成神器了解一下