AI攢論文指日可待?Transformer生成論文摘要方法已出

  • 2019 年 10 月 4 日
  • 筆記

選自arXiv

作者:Sandeep Subramanian等

機器之心編譯

參與:Panda

寫論文是一件「痛並快樂著」的事情。快樂的是可以將自己的研究公之於眾,痛苦的是有大段大段的文本內容需要完成。特別是摘要、引言、結論,需要不斷重複說明論文的主要研究、觀點和貢獻。現在,這樣的工作可以依賴 AI 完成了。Element AI 的研究者們提出了一種新的模型,使用 Transformer 架構,自動地生成論文的摘要。AI 攢論文的進程又往前走了一步。

在開始正文前,請讀者們先讀下面一段摘要:

譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。我們先在生成摘要之前執行一個簡單的抽取步驟,然後再將其用於在相關資訊上調整 transformer 語言模型,之後將其用於生成摘要。我們表明這個抽取步驟能顯著提升摘要結果。我們還表明這個方法能得到比之前的使用複製機制的方法更抽象的摘要,同時還能得到更高的 rouge 分數。」

讀起來怎麼樣?事實上,以上你看到的摘要內容都不是人類完成的,它是由論文中的機器學習模型寫出來的。這是來自 Element AI 的研究者最新公布的研究成果,他們使用了一種類似 GPT 的方法生成了相關研究論文的摘要。

文本摘要是 NLP 中的常見任務了。文檔摘要如果能做到很好,可以極大程度減輕文字工作者的工作量,快速提煉文本核心內容,加速文本資訊的提取、閱讀和生產效率。如果能夠將相關演算法應用在論文寫作上,是不是摘要、引言、相關工作、結論部分都可以省很多功夫了?

但是,正是因為現有的相關演算法不夠成熟,能夠實際應用在生產中的文檔摘要演算法不多,而且現有的演算法普遍只能生成短的、描述事實的文本(在一些新聞平台有所應用)。要將帶有邏輯結構的長文本進行抽取和摘要化處理,這樣的演算法並不常見。

現在,這篇介紹論文摘要抽取生成的論文,也許會給這個 NLP 中的經典任務帶來新的解決思路。

論文地址:https://arxiv.org/abs/1909.03186

Transformer 怎樣生成論文摘要

語言模型的訓練目標是使用某個大型文本語料庫來學習估計任意的詞或字元序列的聯合概率。它們已經在多種不同的語言任務上取得了出色的表現。近期 Radford 等人提出的 GPT-2 表明,如果使用較大的感受野並在大量數據上訓練 transformer,那麼得到的語言模型能夠學習到文本中的長程依賴關係。

如果有人想為長文檔生成連貫的、高品質的摘要,那麼這樣的類 GPT 架構具備很多所需的性質。它們的結果還表明,無條件語言模型可以隱式地學會執行摘要總結或機器翻譯,這是其在數據上訓練得到的結果。如果將這個數據按序列格式化為文檔的不同方面(引言、正文、摘要),那麼就可以讓模型學習生成其中的一個方面。比如,通過在測試時提供相似格式的數據,可讓模型學會解決摘要任務;即語言模型可以基於文檔的引言和之後更長的正文生成一個摘要。

具體而言,論文的研究者使用了單個類 GPT 的 transformer 語言模型,並在文檔及其摘要上進行訓練。在推理階段,語言會基於輸入文檔執行生成任務(見圖 1)。研究者將這個任務劃分為了兩個步驟:抽取和摘要。為了處理超過幾千詞的超長文檔,首先先使用兩個不同的分層式文檔模型執行句子抽取;其中一個模型基於指針網路(pointer network),這類似於 Chen and Bansal 2018 提出的方法一種變體;另一個模型則基於句子分類器。這個抽取步驟能夠抽取出文檔中的重要句子,然後這些句子可用於更好地在相關資訊上調節 transformer 語言模型,然後該模型可以執行摘要生成任務。

模型框架是什麼樣的

他們提出的整體模型包含兩個不同且可獨立訓練的組件。一是分層式文檔表徵模型,它可以指向或分類文檔中的句子,從而得到一個抽取式的摘要。二是 transformer 語言模型,它可基於抽取出的句子以及文檔的一部分或整體來生成摘要。

圖 1:用提出的模型來為科研論文生成摘要

抽取模型

這是一種分層式文檔表徵模型,它可以指向或分類文檔中的句子,從而得到一個抽取式的摘要。

1. 分層式序列到序列句子指針

這個抽取模型類似於 Chen and Bansal 在 2018 年開發的句子指針架構,主要的差異是編碼器的選擇。這裡的模型使用的是分層式雙向 LSTM 編碼器,且使用了詞級和句子級的 LSTM;而 Chen and Bansal 使用的是卷積式詞級編碼器,可以實現更快的訓練和推理。但這兩者使用的解碼器是一樣的,都是 LSTM。

因此,這個抽取器採用了編碼器-解碼器架構。其中編碼器採用了分層結構,結合了 token 級與句子級的 RNN。首先,這個「句子編碼器」或 token 級 RNN 是一個雙向 LSTM,用於編碼每個句子。兩個方向的最後一層的最後隱藏狀態產生句子嵌入。句子級 LSTM 或「文檔編碼器」則是另一個雙向 LSTM,可將這個句子嵌入的序列編碼成文檔表徵。

解碼器則是一個自回歸 LSTM,它的輸入是之前抽取出的句子的句子級 LSTM 隱藏狀態。基於這個輸入,它可以預測下一個要抽取的句子。這個解碼器的輸出是根據該解碼器在文檔表徵上的隱藏狀態,使用一種注意機制計算出來的。這裡使用了來自 (Luong, Pham, and Manning 2015) 的點積注意方法。根據 (Luong, Pham, and Manning 2015) 的輸入饋送方法,這種注意感知型隱藏狀態會在下一個時間步驟連接到輸入。

將注意權重用作在文檔句子上的輸出概率分布,並據此選擇下一個要抽取的句子。這裡研究者採用了一種慣例來指示抽取結束,即相同的索引連續出現兩次。這個模型的訓練目標是最小化每個解碼器時間步驟選取正確的句子的交叉熵。

2. 句子分類器

類似於指針網路,研究者使用了一個分層式 LSTM 來編碼文檔以及得到句子表徵的序列。這個模型的訓練目標是最小化與黃金標準抽取摘要的句子的二元交叉熵損失。

3. 模型細節

這個模型使用了大小為 300 的詞嵌入。token 級 LSTM(句子編碼器)、句子級 LSTM)文檔編碼器)和解碼器各自都有 2 個包含 512 個單元的層,並且在每個中間層的輸出處都應用了 0.5 的 dropout。訓練使用了 Adam,學習率為 0.001,權重衰減為 10^-5,批大小為 32。研究者每 200 次更新對模型進行一次評估,patience 值為 50。在推理階段,使用波束搜索進行解碼,指針模型的波束大小為 4,並從句子分類器選取 k 個最有可能的句子,其中 k 是訓練數據集中摘要的平均句數。

transformer 語言模型(TLM)

這裡僅使用了單個從頭開始訓練的 transformer 語言模型,並使用了「適當」格式化的數據。

這個 transformer 語言模型有 2.2 億個參數,具有 20 層,768 維嵌入,3072 維位置 MLP 和 12 個注意頭。這與 Vaswani et al. 2017 的 transformer 語言模型一樣,唯一的不同之處是這裡不會在初始化時擴展權重。這個語言模型的訓練在單個NVIDIA DGX-2 的 16 個 V100 GPU 上用去了 5 天時間。對於前 40 000 次更新,研究者使用了一個線性上升的學習率計劃,直到最大學習率 2.5×e^−4;之後的 200 000 個步驟則使用 Adam 優化器按餘弦退火計劃降至 0。訓練採用了混合精度,批大小為 256 個序列,每個序列 1024 個 token。

有時候我們要處理非常長的文檔,這些文檔可能沒法放入 transformer 語言模型的單個 token 窗口中,比如一篇科研論文。為此,研究者使用了引言作為代理,因為其中包含足夠用於生成摘要或總結的資訊;論文的其餘部分則像領域語言模型訓練數據那樣使用。

為了實現科研論文的摘要,研究者將 arXiv 和 PubMed 數據集組織成了以下形式:1)論文引言;2)句子指針模型抽取出的句子;3)摘要;4)論文其餘內容。在其它數據集上,論文引言會是整個文檔,不會有論文的其它部分。

研究者使用了一個特殊 token 來標示摘要的起點,並在測試時間將其用於指示模型開始執行生成摘要的任務。文章的其餘部分也會提供給該語言模型,以用作補充的域內訓練數據。整個數據集被分割為了互不重疊的樣本,每個樣本 1024 個 token。研究者在推理時使用了「前 k 個(topk)」取樣方法,其中 k=30,softmax 溫度為 0.7。

結果與分析

數據集

研究者實驗了四個不同的大規模長文本摘要數據集:arXiv、PubMed(Cohan et al. 2018)、 bigPatent(Sharma, Li, and Wang 2019)、Newsroom(Grusky, Naaman, and Artzi 2018)。表 1 給出了這些數據集的統計情況。

表 1:本研究中所使用的數據集的統計情況。各列依次為:數據集名稱、文檔-摘要對數量、文檔詞數與摘要詞數的比、摘要的詞數、文檔的詞數

數據預處理

抽取模型與摘要模型使用的子詞單元都是通過位元組對編碼(byte pair encoding)(Sennrich, Haddow, and Birch 2015)計算得到的,使用了 40 000 個 replacement。為了解決句子指針網路的記憶體問題,每篇文章僅保留 300 個句子,每個句子保留 35 個 token。

評估

研究者使用的評估指標是全長度 F-1 ROUGE 分數(Lin 2004),為此研究中復用了(Co- han et al. 2018)的程式碼。本研究報告的所有 ROUGE 數值都有 95% 的置信區間,偏差最多為 0.24。

結果

表 2:在 arXiv 數據集上的摘要結果。之前的研究結果(Previous Work)來自(Cohan et al. 2018)。下面幾行是簡單的基準線前 10 名抽取器以及指針和分類器模型。新提出的 transformer 語言模型要麼只基於引言(I),要麼還有抽取的句子(E),這些抽取的句子來自基本真值(G)或模型(M)抽取。

表 3:定性結果——NewsRoom 數據集的新聞文章以及新提出的模型生成的摘要