EMNLP 2019 | 哈工大劉挺團隊,基於事件背景知識進行 If-Then 類型常識推理

  • 2019 年 10 月 7 日
  • 筆記

本文來自公眾號哈工大SCIR,AI科技評論獲授權轉載,如需轉載請聯繫原公眾號。 原標題:賽爾原創 | EMNLP 2019 基於上下文感知的變分自編碼器建模事件背景知識進行If-Then類型常識推理。

論文名稱:Modeling Event Background for If-Then Commonsense Reasoning Using Context-aware Variational Autoencoder

論文作者:杜理,丁效,劉挺,李忠陽

原創作者:杜理,丁效

下載鏈接:https://arxiv.org/abs/1909.08824

轉載須註明出處:哈工大SCIR

1.簡介

理解事件並推斷事件相關常識知識對於多種NLP任務具有重要意義。給定某一特定事件,人類可以輕易推斷出該事件的意圖、效應等,然而這類If-Then推理任務對於AI仍具相當挑戰性。針對此,研究者提出了一個If-Then類型事件常識推理數據集Atomic和基於RNN的Seq2Seq模型以進行此類推理。然而,同一事件可能對應多個意圖,基於RNN的Seq2Seq模型傾向於生成語義接近的答案。此外,學習事件背景知識將有助於理解事件並進行If-Then推理任務。為此,我們提出一個上下文感知的變分自編碼器以學習事件背景知識並進行If-Then推理任務。實驗結果顯示相比於基線方法該方法能有效提高推理結果的準確性與多樣性。

2.動機

事件相關常識知識推理近年來日益受到研究者的關注。為此,Rashkin等人(2018)與Sap等人(2018)分別提出了事件相關If-Then類型推理數據集Event2Mind與Atomic。這兩個數據集關注於給定事件後,推斷事件的原因、結果等知識。同時他們還提出利用經典的基於RNN的Seq2Seq框架以進行此類推理。

然而If-Then推理問題仍存在兩個挑戰。首先,如圖1所示,給定某一事件,對於該事件的感受可能是多樣的。對於此類一對多生成問題,研究顯示,傳統基於RNN的Seq2Seq模型可能傾向於給出某些泛泛的回答(li等人,2016,; Serban等人,2016)。其次,生成合理答案需要建立在對事件背景知識的了解之上。如圖1所示,對事件「PersonX finds a job」的感受可能是多樣的。然而,在給定事件上下文「PersonX isfired」後,合理的感受將局限於"needy"或"Stressed out"。

為更好應對這兩個挑戰,我們提出了一個上下文感知的變分自編碼器(context-aware variationalautoencoder, CWVAE)。基於變分自編碼器的方法被廣泛利用於提高一對多生成問題中模型生成的多樣性(Bowman等人,2015; Zhao等人, 2017)。在傳統變分自編碼器的基礎上,我們引入了一個額外的上下文感知隱變量(Context aware latent variable)以學習事件背景知識。在預訓練階段,CWVAE在一個故事語料構成的輔助數據集上(包含豐富的事件背景知識)預訓練,以使用上下文感知隱變量學習事件背景知識。隨後,模型在Atomic/Event2Mind數據集上微調,以使得模型適應各個If-Then推斷目標(如事件意圖,事件效應等)。

圖1 If-Then推理問題的兩個挑戰同一事件可能使人產生多種感覺。背景知識有助於If-Then推斷過程。但是這一知識在數據集中並不存在。

3.背景

在介紹Atomic與EventMind數據集以及正式定義問題之前,為清晰起見,我們定義以下術語:

Base event:If-Then推理的前提事件,如圖1中的「PersonX finds a new job「。

Inference dimension:特定的If-Then推理類型,如事件意圖、事件效應。

Target:推理目標。如圖1所示,給定base event 「PersonX finds a new job「和Inference dimension"XReact", Target可以是"needy"或"relieved"。注意同一base event可能對應多個 target。

Event2Mind數據集通過眾包形式構建,包含約25K條base event,以及300K target。表1展示了一個Event2Mind數據集中的例子。

表1 Event2Mind數據集中的一個例子。」x「和」o「分別指PersonX和others。

Atomic數據集相比於Event2Mind規模更大。表2展示了一個Atomic中的例子。儘管Atomic同時包含Event2Mind中的inference dimension,二者的base event並不完全相同。

表2 Atomic數據集中的一個例子。」x「和」o「分別指PersonX和others。

問題定義 If-Then推理問題可以定義為一個一對多的條件生成問題:給定base event

,和一個inference dimension

,模型需要生成target

並使其盡量接近於人工標註,其中

均由一系列詞構成。

4.上下文感知的變分自編碼器(CWVAE)

本文將If-Then推理問題概括為[(background), event]-target關係,並利用CWVAE建模這一關係。為實現這一目的,如圖2(a)所示,在CWVAE中,我們引入了一個上下文獲取隱變量(context-acquire latent variable)

用以直接獲取事件背景知識,和一個上下文感知隱變量(context-aware latent variable)

用以從

處學習事件背景知識。因為Atomic與Event2Mind數據集中並不存在事件背景知識,我們設計了一個兩階段訓練過程:

預訓練:從輔助數據集上學習事件背景知識 如圖3(a)所示,在預訓練階段, 上下文獲取隱變量能夠直接獲取到有關於事件上下文

的知識。隨後,通過最小化

與上下文感知隱變量

之間的距離,事件背景知識得以從

傳遞至

微調:使學到的事件背景知識適應於每個Inference Dimension 如圖2(b)所示,在此階段,CWVAE在Atomic與Event2Mind的每個inference dimension上進行微調。進而,如圖2(c)所示,在推斷階段,給定事件後,CWVAE得以利用

中蘊含的有關於事件背景的知識生成targets。

圖2 CWVAE的預訓練、微調與生成過程

CWVAE的結構

圖3展示了CWVAE的具體結構。模型總體分為四部分:編碼器(Neural Encoder)將

編碼為向量表示,先驗網絡(Prior Network)建模

,識別網絡(Recognition Network)建模

,解碼器(Neural Decoder)則整

中蘊含的信息以生成

圖3 CWVAE的具體結構

編碼器由雙向GRU構成,將上下文

, base event

與target

編碼至向量表示

,

, 與

識別網絡利用向量表示

,

,

建模

,

,

。上述三個分佈均為各向同性的高斯分佈(換言之,協方差陣為對角陣)。

我們提出了一個基於注意力機制的推理模塊ABI(Attention Based Inferer)以估計上述分佈的均值

和標準差

(1)

ABI的具體結構見下文。

先驗網絡 利用

建模

。上述兩分佈同樣為各向同性的高斯分佈。其均值與方差亦利用ABI估計:

(2)

解碼器 給定

,

,解碼器以如下方式生成:

(3)

,

是前饋神經網絡。

是注意力機制中的上下文向量(context vector),

是解碼器中的隱含狀態。我們按照Bahdanau等人(2014)的方式定義

。但隱含狀態

,其中

中第

個詞的詞嵌入向量。通過這種方式,在解碼過程中CWVAE能夠直接利用

中蘊含的事件背景知識。此外,

中的隨機性可以增強生成的多樣性。

基於注意力機制的推斷器 受Parikh等人(2016)的啟發,基於注意力機制,我們按以下方式計算

的均值與方差:給定兩個向量序列(如上下文與base event的表示 )

,我們首先利用互注意力機制(Parikh等人,2016)得到向量序列

的上下文向量序列

。隨後,對於兩組上下文向量序列進行平均池化操作可得兩個向量

通過上述操作,

攜帶了序列

與序列

的語義交互信息。在

的基礎上,通過下列操作,我們得到均值

與標準差

(4)

5. 實驗

5.1輔助數據集的構建

輔助數據集基於三個故事數據集構建:ROCStory(Mostafazadeh等人,2016), VIST(Huang等人,2016),WritingPrompts(Fan等人, 2018)。我們將上述數據集中的每個故事分成長為5句話的子段落,並將每個子段落的前三句話定義為base event的上下文,第四句話定義為base event,第五句定義為target。表3給出了一個例子。

表3 輔助數據集的一個例子

5.2 評價指標

我們使用BLEU與困惑度作為衡量生成準確性的指標,利用distinct-1gram與distinct-2gram的數量作為衡量生成多樣性的指標(Li等人, 2017)。此外,我們還從生成的準確性,多樣性與流暢性三個角度對模型進行了人工評價。

表4 (a) Event2Mind數據集上的perplexity與BLEU score;

(b) Event2Mind數據集上的distinct-1與distinct-2

表5 Atomic數據集上的perplexity與BLEU score

表6 Atomic數據集上的distinct-1與distinct-2

5.3 整體結果

表4–6展示了CWVAE與基線方法在Event2Mind與Atomic上的BLEU與困惑度,以及distinct-1與distinct-2指標。從中可以觀察得出:

  1. 通過將基於變分的Variational Seq2Seq,VRNMT, CWVAE-unpretrained以及 CWVAE與其他基於RNN Seq2Seq的模型發現,基於變分法的模型生成的多樣性總體而言高於其他基於RNN Seq2Seq的模型。這確認了採用基於變分的模型提高生成多樣性的合理性 。
  2. 通過將CWVAE-unpretrained與其他基線模型對比發現,總體而言CWVAE-unpretrained在兩個數據集上均表現出了較好的準確性與多樣性。這顯示了CWVAE在捕獲target的潛在語義分佈、生成合理推理結果上的能力。
  3. 將CWVAE-unpretrained與CWVAE對比發現,總體而言預訓練能夠提高模型在準確性與多樣性兩方面上的表現。這是由於,事件背景知識能夠指導推理過程。而通過預訓練,模型能夠學到事件背景知識。

人工評價結果見表7。總體而言,在兩個數據集上,CWVAE也表現出了較好的準確性,多樣性與一致性。

表7 (a)Event2Mind數據集上的人工評價結果; (b)Atomic數據集上的人工評價結果

6. 總結

針對If-Then推理問題,本文提出了一個上下文感知的變分自編碼器(CWVAE)和一個兩階段的訓練過程。利用額外的上下文感知隱變量,CWVAE得以學習事件背景知識,並利用這種知識指導If-Then推理過程。通過兩階段訓練過程中的預訓練階段,CWVAE學習事件背景知識。在隨後的微調階段,使得學到的背景知識適應於各類推理目標。實驗結果顯示CWVAE在兩個數據集上均表現出了較高的準確性與多樣性。