ACL2019論文閱讀筆記——基於單句和雙句打分的生成式摘要
- 2020 年 3 月 27 日
- 筆記
論文Scoring Sentence Singletons and Pairs for Abstractive Summarization發表於2019年自然語言處理頂級會議ACL,本文將對其進行詳細解讀,這是原文鏈接(https://arxiv.org/pdf/1906.00077.pdf),此外作者還公布了論文代碼。
背景
近來生成式文本摘要強調要將文本內容選擇和摘要生成分開處理,有的研究使用提取的方法來識別那些應該應該屬於摘要部分的詞和句子,並使用這些得到的信息指導下一步的摘要生成,這篇論文就是沿襲這一思路。

作者發現60%-85%的情況下摘要句子都是由單個句子壓縮和兩個句子融合得到的。因此論文提出了一個方法用來將單句和成對句子映射到一個統一的空間進行排序,然後根據這個排序選擇出對於摘要有重要價值的單句和成對句子,最後通過對單個句子壓縮,成對句子融合來生成一個總結句。一對句子(A,B)若是攜帶了互補信息那麼得分將比組成他們的單個句子更高。
現有的句子融合研究都是假定已經提供了用來融合的源句子了的,將句子融合用於文本摘要需要提供用來融合的句子,而如何尋找這些用來融合的句子仍然是一個空缺。論文提供的方法可以找到用來進行融合的句子對,因此將句子融合引入到了文本摘要中,這是這方面工作的一次嘗試。
模型

模型分為兩個部分。第一部分得到單句和句子的向量表徵從而以此得到其評分,然後再進行單句和句子對的選擇,這裡的關鍵是要將不同長度的文本映射(因為句子對肯定要比單句長)到統一的向量空間,以及能夠深入編碼句子對的語義相容性。第二部分就是使用選出的得分最高的單句和句子對生成文摘。
給單句和句子對評分
將單句和句子對統稱為實例,如果實例集D中的單句數為N,那麼可能的句子對數為,則實例數 。
這裡使用BERT架構來學習實例的表徵,學到的表徵用一個分類任務來fine-tune,即預測一個實例是可以被用來生成ground-truth summary的句子 。BERT提供了MASK LM 和Predict Next Sentence兩種用來預訓練任務來得到深度的上下文表徵,作者認為第二種任務預測B是否是A的下一句需要學習到(A+B)的向量表徵,這樣才能感知到兩個句子的連續性,因此作者認為第二項任務對於實現句子對的表徵尤為關鍵。
BERT輸入序列
首先在句子A前面插入[CLS],將學習後的[CLS]當成單句或句子對的表徵用於下游任務;在兩個句子間插入[SEP]來劃分句子

隨後對於的每一個token做如下處理得到嵌入表示

輸入嵌入隨後送入多個transformer模塊,其中每個模塊自注意力層的輸入都是上一層的隱藏狀態(或輸入嵌入)

最後一層L層的[CLS]的隱藏狀態作為序列的表徵 ,預訓練好的模型可以再加一層輸出層fine-tune,這裡的任務是一個文本分類的任務,即預測一個實例是否屬於ground-truth的文摘實例集合的概率σ,這裡使用的數據集是作者自己的創建的。
作者同時還使用傳統方法VSM來表徵單句和句子對,並作為baseline。
生成文摘
實例的重要性得分已經知道了,隨後作者使用MMR準則來挑選得分最高且不冗餘的一組實例來用於文摘生成,該方法每次通過下式從實例集D中取出一個實例放到用於生成文摘的實例集S中

隨後作者選擇pointer-generator(PG)networks來將單句壓縮,句子對融合。但是作者沒有使用上述得到的實例來訓練PG的,也不是直接使用doucument-summary對來訓練的,而是自己創造訓練數據來訓練PG,這樣訓練出的網絡就可以專心訓練壓縮和融合了而不用引入句子選擇的誤差,使得訓練好的PG能夠更好的使用上文得到的文摘實例集。
構造訓練數據集
該數據集既可用於給單句和句子對評分中fine-tune的給句子評分的任務,也可用於訓練PG,構造流程如下:
- 原始文章文摘對為
- 對於文摘中的每個句子使用ROUGE-1,-2,-l分數的平均值來衡量文章中的句子與的相似度,選擇最相似的那個,得到。
- 將和中相同的部分去掉,得到
- 重複步驟1和2得到和…
- 這樣就得到一個訓練樣本
結果
實例選擇評測

圖片 21.png
SingPairMix:選擇的實例集中包含單句和句子對 SingOnly:選擇的實例集中只包含單句 Primary:ground-truth實例所有單句+所有句子對中的第一句 Secondary:ground-truth實例所有句子對中的第二句 All:將ground-truth實例集合內所有句子對展開
評測時將得到的實例集合展開分別與Primary,Secondary,All計算Precision,Recall, F1-measure得分。
可以看到BERT-SingPairMix再CNN和Xsum表現突出。而在多文檔數據集DUC-04中,使用VSM的TF-IDF特徵對結果更有效,因為TF-IDF得分能夠反映出詞的主題重要性,而重要的主題詞往往會在多個文檔中重複出現,這表明將BERT改進融入詞的主題重要性是一個很有價值的研究方向。
文摘效果評測

圖片 22.png
Bert-Extr:將所有選出的單句和句子對簡單連接起來 GT-SingPairMix:將所有的ground-truth的單句和句子對簡單連接起來,即計算提取式理論最大值 BERT-Abs-PG:將所有單句和句子對使用pointer-generator network進行編解碼操作輸出文摘句子
在CNN和DUC-04上,提取式效果更好;在XSum上,生成式更好。但進一步看,這其實和選取的句子對的比例相關,在DUC-04,CNN,Xsum上,句子對的比例分別為100%,76.9%,28.02%,說明句子對的比例越大生成式文本摘要的效果越差,也說明現存的使用編解碼器的摘要生成器在句子融合上有待提升。本篇論文的着手點是實例選擇,若搭配句子融合性能更好的摘要生成器將得到更好的結果,因此這方面的研究很有價值。
進一步的分析

這裡展示的在三個數據集中ground-truth的單句和句子對在一篇文章中的分佈,可以看到Xsum數據集上單句和句子對的選取位置因素不明顯,在選取時難度也相較其他兩個數據集更有挑戰性。而本文在Xsum實例選取上的出色表現說明了選取模型的有效性。

在生成的文摘的句子中,位於前面的句子通過融合的方式得到的概率比位於後面的句子的概率大一些,這可能由於人們在寫文摘時往往更有可能把第一句當成總領句,而它需要融合多個句子。
參考
[1] Lebanoff, Logan, et al. "Scoring sentence singletons and pairs for abstractive summarization." arXiv preprint arXiv:1906.00077 (2019).

