AAAI 2020「自然語言處理（NLP）論文」影響文本簡化因素分析？？？

2020 年 2 月 23 日
筆記

喜歡我們，點擊上方AINLPer，關注一下，極品乾貨即刻送達！

自我隔離的第六天，今天陽光特別好，但是不能出門，不過托別人的福，今天整了個漢堡（好久沒有吃肉了），美滋滋~~

引言

該篇文章是今年AAAI2020頂會上的一篇文章，其主要研究背景是文本簡化，文本如何簡化才能得到比較好的結果，是什麼因素在影響着文本簡化效果呢，針對這些問題，論文作者從各個方面進行了分析，例如文檔的長度、標題、帶有關聯詞的句子等。本篇文章對研究文本簡化有些指導意義，在工程上面的可取的應該是RST。

正文開始

First Blood

TILE: Discourse Level Factors for Sentence Deletionin Text Simpliﬁcation.

Contributor: 俄亥俄州立大學

Paper: arxiv.org/abs/1911.1038

Code: None

文章摘要

文本簡化需要對相關的句子予以刪除，在此背景下，文檔簡化需求中普遍存在但仍處於研究階段。針對此問題，本文使用一個新的人工標註的句子對齊語料庫來檢查與句子刪除相關的各種文檔以及話語因素。在此過程中發現專業編輯人員使用不同的策略來滿足中小學的可讀性標準。為了預測某個句子在簡化過程中是否會被刪除，我們利用自動對齊的數據來訓練一個分類模型。根據我們的手動注釋數據進行評估，我們的最佳模型在小學和中學階段的F1得分分別達到65.2和59.7。研究發現，話語水平因素有助於預測簡化句子的難度。

文章背景介紹

文檔簡化的目的是為了讓更多的觀眾了解文本內容中真正意圖，在其簡化過程中其實涉及多種操作，主要包括：詞法、句法轉換、摘要以及難讀內容的刪除和解釋。最近這幾年關於文檔簡化的研究也在呈爆髮式增長，但是大部分的研究模式主要還是集中在句子級別上，即如何能夠讓句子更加簡化。然而卻忽略了文檔級別上簡化，因為這樣可以刪除句子，這樣可以讓文檔更加簡化。本文的工作旨在促進更好地理解文檔級簡化中的句子刪除。因為句子的刪除除了句子中的內容外，還部分地由上下文，話語級信息驅動。

文章主要內容

數據準備及思路

使用936個新聞文章的Newsela文本簡化語料庫。每個文章集由原始文章的4或5個簡化版本組成，範圍從3至12級（對應於8至18歲）。我們將文章分為三個閱讀級別：原始（1-2年級），初中（6-8年級）和小學（3-5年級）。我們從每個閱讀級別使用一種版本的文章，並研究兩種文檔級別的轉換：原始→中間和原始→基本。我們進行分析，學會預測當將文本簡化為所需的閱讀水平時，專業編輯人員是否會丟棄一個句子。為了獲得標記數據進行分析和評估，我們手動對齊了50個文章集的句子。生成的數據集是用於簡化句子對齊的最大手動注釋數據集之一。下圖1顯示了原始文章中的3句段落，與小學版本一致。

原始文章中不能與較低閱讀水平的任何句子相匹配的句子被認為已刪除。為了訓練用於句子刪除預測的模型，我們依靠來自語料庫其餘部分的自動對齊句子的嘈雜監督。

話語等級因素分析（摘要修辭結構RST）

本文提出了一系列的分析來研究在簡化過程中可能影響句子刪除的話語層次因素，包括文檔特徵、修辭結構和話語關係。

文檔特徵

文檔的長度。 實驗對比發現文檔越長，句子被刪除的比例就越高。

文檔的主題。 主題的刪除率各不相同。科學類文章的刪除率在初中和小學階段都明顯較低。關於金錢和法律的文章的刪除率明顯高於其他文章。

摘要修辭結構理論(RST)

摘要修辭結構理論(RST)從基本的語篇單元(基本的獨立子句)出發，描述了語篇樹中篇章跨度之間的關係，RST被認為在相關的應用中是有用的。具體RST樹的例子如下圖所示：

其中，箭頭代表核（箭頭）和衛星（箭頭尾）。在原始階段，保留並重述[1]，刪除[2]，保留第三個句子，但將其拆分為兩個[3a]和[3b]作為一個句子，[3c]作為另一個句子。在這裡，我們將重點放在每個句子如何位於原始文檔的第一棵樹中，因此我們將每個句子視為一個話語單元(不一定是基本的話語單元)。

話語樹的深度。 被刪除的句子在話語樹中所處的位置明顯低於被保留的句子。由於顯著性句子更傾向於位於語篇樹的根附近，這表明顯著性在決定一個句子是否應該被刪除時起着一定的作用。

核。實驗發現，雖然在小學階段，附屬句往往被刪除，但是差異很小。

話語相關

內部句子相關性。 觀察到精化關係是數據集中最頻繁的關係；簡化另一個句子的句子在簡化過程中更可能被刪除（對基本水平而言具有統計學意義）。與任何關係（根）無關的重要句子在兩個級別上被刪除的可能性均大大降低。此外，用作現有句子解釋的句子在簡化過程中被刪除的可能性較小（對於中學水平而言，這一點很明顯）。如下表所示。

話語鏈接詞。連接詞的位置(句子的開頭和結尾)是判斷它們之間的關係是句內關係還是句間關係的重要指標，一般編輯都不樂於把帶有連接詞的句子刪除掉。

實驗結果

我們運行兩個任務的實驗，首先建立一個分類模型，以了解在簡化到中級和原始級別時是否可以預測是否應刪除句子。其次，我們進行特徵消融，以確定在嘈雜的監督下實踐文件和話語信號是否有幫助。對於原文中的一個句子，我們(i)預測它是否會在簡化到初中水平時被刪除，從自動對齊訓練到噪聲監督;(ii)初級階段的預測也相同。我們使用15篇手動對齊的文章作為驗證集，其他35篇文章作為測試集。

實驗方法：我們使用邏輯回歸（LR）和前饋神經網絡（FNN）作為分類器，並嘗試從多個可能互補的方面進行特徵測試。為了捕獲句子級語義，我們考慮GloVe詞嵌入的平均值。稀疏特徵（SF）包括句子在整篇文章以及其所在段落中的相對位置。此外，我們還包括以下句子的可讀性評分。利用我們的語料庫分析（第3節），我們結合了文檔級別的功能，包括文檔中句子的總數和單詞數以及文檔的主題。我們的話語功能包括當前句子的深度，核的指示符特徵以及文檔的支配關係RST樹中的當前句子，是否存在我們分析的四個關係之一的顯式連接詞以及該連接詞的位置。我們還使用句子的位置，因為文章後面出現的句子更有可能被刪除。為了提高預測性能，我們採用了一種平滑分類方法，並通過應用k個高斯徑向基函數將每個稀疏特徵（二進制或數字的稀疏特徵）投影到k維矢量表示中。

小學階段簡化句子刪除預測的效果。

表8

中學階段簡化句子刪除預測的效果。

表9

特徵消融分析通過每次刪除一個特徵類別來預測句子的刪除。

表10

結論： 1、中學級別的比較難預測；

2、FFNN+Gaussian層的模型運行結果比較好。

AAAI 2020「自然語言處理（NLP）論文」影響文本簡化因素分析？？？