EMNLP2021 | 東北大學提出:一種基於全局特徵的新型表填充關係三元組抽取模型
- 2021 年 10 月 14 日
- AI

作者 | 張龍輝
論文鏈接://arxiv.org/pdf/2109.06705.pdf
作者簡介:張龍輝,共同一作。目前為東北大學知識圖譜研究小組的在讀碩士,導師是任飛亮老師。在EMNLP,CIKM,NLPCC均有論文發表。研究領域為資訊抽取。
個人主頁://zlh-source.github.io/
導師主頁://faculty.neu.edu.cn/renfeiliang
基於表填充的關係三元組抽取方法由於其良好的性能和從句子中提取複雜三元組的優秀能力而受到越來越多的研究者關注。然而,這類方法遠遠沒有發揮其全部潛力,因為它們大多隻關注局部特徵,而忽略了三元組間的全局關聯,這使得模型在三元組抽取過程中會忽略某些重要資訊。為了克服這一缺陷,我們提出了一種基於全局特徵的關係三元組抽取模型,該模型可以充分捕獲三元組間的全局特徵。
具體而言,我們首先為每個關係生成一個與之對應的表特徵。接著,我們將從這些表特徵中挖掘關係間的全局交互特徵、以及token pairs之間的全局交互特徵。下一步,這兩類全局交互特徵將進一步融合到各個關係對應的表特徵中。以上「生成—挖掘—融合」的過程會執行多次,以便使每個關係對應的表特徵逐步精細化。最後,根據這些表特徵,我們可以對每個關係對應的表進行填充,並根據填充結果而得到具有相應關係的各個三元組結果。我們在多個benchmark數據集上對相應方法進行了評估,實驗結果顯示,我們方法的結果明顯優於多個最新三元組抽取方法。
三元組一般以(subject, relation, object)的形式表示客觀存在的一個知識。比如,(中國,首都,北京)可以表示「中國的首都是北京」這一事實。在三元組中,subject和object均為實體,relation為關係。相應地,三元組抽取任務是在給定輸入文本(一般以句子為單位)的條件下,從中自動地抽取出文本所包含的三元組資訊。顯然,三元組抽取任務對於知識圖譜自動構建等下游任務而言至關重要。
在各類三元組抽取方法中,基於表填充的方法是目前廣受關注的一類方法。該類方法的主要特點包括以下兩點。
-
1)在給定輸入的條件下,該類方法為每一個關係設定一個對應的表,表的大小為L*L,其中L為輸入文本中包含的token數。換句話說,如果預先定義了n個關係,那麼,對於每一個輸入文本,將會有對應的n個L*L的關係表。
-
2)關係表中的元素可以稱為對應模型所定義的label集,主要用來提示對應的一個token pair所具有的可以提示其是否具有對應關係的各類提示資訊。比如,我們可以用」HH」來表示某個token_i和token_j均為對應關係的頭實體(即subject實體)中的token。
顯然,如果每個關係的對應表資訊都可以準確的獲得,那麼,就可以基於這些表準確地推導出輸入文本中所具有的三元組資訊。因此,基於表填充的三元組抽取方法的關鍵是有效地進行關係表填充。
目前,一些基於表填充的方法在多個基準線數據集上都取得了SOTA的結果。然而,這些已有方法在進行表填充過程中都是以使用下面兩類局部特徵為主:
-
1)在確定某個表元素時,使用該元素所對應的token pair資訊;
-
2)在確定某個表元素時,使用已完成填充的歷史表元素資訊。
顯然,這些方法忽略了token pairs之間的全局關聯資訊以及關係間的全局關聯資訊。而這兩類全局特徵可以較好的揭示關係和token pairs之間的差異,既可以通過多方面相互驗證而提高三元組抽取的準確率,又可以通過幫助推導出新的三元組而提高三元組抽取的召回率。
比如,給定輸入句子「Edward Thomas and John are from New York City, USA.」,從全局的角度來看,我們可以很容易獲得下面兩類全局資訊。首先,三元組(Edward Thomas, live_in, New York)有助於三元組(John, live_in, USA)的提取,反之亦然。這是因為這兩個三元組的(subject, object)對具有類似的屬性,均是以(人名,地名)的形式出現,而相同類型的實體對顯然更容易具有相同或類似的關係。換句話說,根據三元組中實體對資訊的屬性可以對獲得到的三元組進行進一步的驗證以提升準確度。其次,通過上面兩個三元組有助於推導出新的三元組(New York, located_in, USA)。這是因為:
-
(1)locate_in關係要求其對應的兩個實體均與locations相關;
-
(2)locate_in與live_in在語義上具有一定的相關性;
-
(3)live_in關係要求其對應的object實體為locations。
這樣,在已知的兩個三元組和未知的三元組之間可以確立一條清晰的推導路徑。顯然,這兩類重要的全局特徵資訊不可能被現有方法中使用的局部特徵所包含。受此啟發,本文的方法主要是通過挖掘、使用上面提到的兩類全局特徵進行三元組抽取。
通過前面的介紹我們可以知道,在基於表填充的三元組抽取模型中,首要任務就是為關係表定義合適的label集,每個label均用來表示一個token pair(這裡記為(wi,wj))所在某個關係對應的表中所具有的和三元組相關的某些屬性。
在本文中,我們定義的label集為:{“N/A”, “MMH”, “MMT”, “MSH”, “MST”, “SMH”, “SMT”, “SS”}。其中標籤{“MMH”, “MMT”, “MSH”, “MST”, “SMH”, “SMT”}等均由三個字母組成,第一個字母為M或S時,代表單詞對中wi是subject中的某個單詞,並且subject是由多個單詞或單個單片語成的實體。第二個字母與第一個字母類似,只是該字母是關於object和wj的相關資訊的描述。第三個字母H或T代表該單詞對分別是subject和object的開頭或結尾。而」SS」標籤表示該單詞對就是實體對,即為兩個實體均只有一個單詞。N/A標籤即為其它情況。
和已有的表填充方法相比,本文設計的label集的一大特點是可以大幅減少模型需要填充的元素個數(詳細情況可以參考論文中對應的分析部分)。
模型結構
我們模型的結構如下圖1所示,主要包含4個模組:Encoder模組、表特徵生成模組、全局特徵挖掘模組、以及三元組生成模組。
給定一個輸入句子,我們首先對其進行編碼,抽取出句子特徵。
之後,句子特徵被輸入進表特徵生成模組中,生成初始的表特徵。
接著全局特徵挖掘器利用max pooling和transformer進行表格和句子的交互,用以捕獲全局特徵,並將全局特徵和句子特徵進行資訊融合作為下一次迭代時的句子特徵輸入進表特徵生成模組。至此,整個迭代過程形成了一個閉環。
經過多次迭代後,每個表對應的特徵將被逐漸細化,我們依據最後一次迭代生成的表特徵使用三元組抽取器進行表填充和表解碼以得到最終的三元組結果。
這裡,我們忽略了各個模組中的具體過程,讀者可通過閱讀原文獲取詳細資訊。

圖1.模型結構圖
表解碼策略
對於每一個關係,當完成對其對應的表填充後,需根據填充結果進行解碼,以得到具有該關係的三元組結果。當對所有關係的表解碼完成後,輸入句子所具有的所有三元組資訊也相應的獲取完成。
在本文中,我們主要通過確定實體對的開始和結束位置來進一步確定所有的關係三元組。同時,為了應對實體嵌套的問題,在該階段我們設計了三種解碼策略:正向搜索,反向搜索和「SS」標籤的搜索(分別對應下面圖2中的紅線,綠線和藍線)。

圖2.表的填充和解碼示意圖
論文使用NYT29,NYT24和WebNLG數據集進行性能測試。整體實驗結果和消融實驗結果如表1所示。結果顯示,相較於之前的最佳三元組抽取模型,本文提出模型的性能在三個數據集上均有明顯提升。其中,在WebNLG上的提升幅度最為明顯,我們認為,這主要是因為WebNLG數據集中包含更多種關係,這也意味著三元組之間的全局特徵也更多。因而,該數據集可以使我們的方法發揮更大功效。

表1.整體實驗及消融實驗結果
在本文所提的模型中,存在一個迭代過程,因而研究者會擔心其效率。為此,我們進行了兩部分實驗來評估其執行效率。
首先,我們對模型的性能與迭代次數的關聯進行了評估,結果如圖3所示。從中我們可以發現兩個重要的結論。
-
(1)在一定範圍內,隨著迭代次數的增多,模型性能也會逐漸上升,並且在模型在迭代兩次時,性能漲幅最大,而此時正是全局特徵首次參與運算。因此,這個實驗結果證明了捕獲全局特徵的重要性。
-
(2)通過該實驗結果,我們可以清晰的看到,模型僅需迭代較少的次數就可以達到最佳性能。比如,在相對簡單的NYT*和WebNLG*數據集上,只需迭代兩次即可達到最佳性能;而在其它相對複雜的數據集上,也僅需迭代3、或4次即可得到最佳性能。更重要的是,從中可以看出,即使只迭代2次,本文模型所對應的性能也超過了之前所有的模型。
這些結果顯示,本文方法中的迭代環節不會成為模型運行的負擔。

圖3.迭代次數與模型性能的關聯
首先,我們比較了一些當前最佳模型的參數效率,結果如下表2所示。從中可以看出,與同樣使用Transformer的SPN模型相比,我們的模型具有更少的參數。而且,從encoder參數所佔的比例來看,我們模型的迭代部分並沒有引入更多的參數。因此,從該實驗結果我我們可以得出結論,本文所提的模型具有極強的參數效率:可以在較少的參數條件下達到更好的性能。此外,本文模型的另外一個優勢在於其可以在較短的時間內完成訓練。因為本文模型的epoch設置為50,而其它所有對比模型的epoch均設置為100。而從表2的推導時間可以看出,不同模型的推導時間基本接近。而模型訓練時間與推導時間存在一定的正向關聯,因而,較少的epoch意味著更快的訓練速度。

表2.參數效率比較
通過上面兩類實驗,我們可以得出結論,雖然本文模型中有迭代環節,但並沒有因此而導致效率低下,相反,通過有效地進行全局特徵挖掘,本文方法可以在較少的迭代次數下獲取最佳的實驗性能。
在本文中,我們提出一個基於兩類全局特徵的表填充三元組抽取模型。實驗結果顯示,這兩類全局特徵對於提升模型的準確率、召回率均有較大幫助。相應地,本文所提出的模型在多個基準線數據集上均取得了最佳性能。並且,本文所提模型還具有參數量適中、參數效率高的特點,是一種高效的三元組抽取模型。
還有疑問?點擊影片觀看詳細講解:
添加小助手微信(AIyanxishe3),備註EMNLP2021拉你進群
雷鋒網