ACL 2020 | KdConv:多領域知識驅動的中文多輪對話數據集
ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行,但因新冠肺炎疫情改為線上會議。ACL 2020共收到3429個投稿,是計算語言學領域首個投稿量超過3000的會議。4月3日,ACL 2020 正式公布錄用論文。
清華大學人工智慧研究院交互智慧(CoAI)小組有三篇長文和一篇demo論文被ACL錄用,兩篇文章被TACL錄用並將在ACL 2020展示。本文為其中 long papers 之一。
編輯 | 賈偉

論文鏈接://arxiv.org/abs/2004.04100
數據和程式碼地址://github.com/thu-coai/KdConv
由於包含知識標註的多輪對話數據集的缺乏,知識驅動對話系統的研究在很大程度上受到了限制。
為了進一步推動多領域的知識驅動的多輪對話研究並且彌補中文語料的缺乏,我們提出了一個中文的多領域的知識驅動的對話數據集KdConv (Knowledge-driven Conversation),其使用知識圖譜為多輪對話中使用的知識進行標註。
我們的語料庫包含了來自三個領域(電影、音樂和旅遊)的4.5K個對話,86K個句子,平均輪數為19.0。這些對話包含了相關話題的深度討論,以及多個話題之間的自然過渡。
為了方便在這個數據集上的研究工作,我們提供了幾個生成式和檢索式的基準線對話模型。實驗結果顯示,這些模型可以通過引入背景知識來增強模型的性能,然而利用知識進行多輪對話建模仍有很大的提升空間,有待進一步研究。
結果還顯示,對話模型在不同領域之間的性能差異明顯,說明遷移學習和領域轉換方面的工作值得進一步研究。論文已被ACL2020 會議接收,KdConv數據集和基準線模型將會公開供學術研究使用。
KdConv的一個對話樣例,下劃線的文本是在對話中使用的相關知識。
相比於之前的知識驅動的對話數據集,KdConv有三大特點:
1、標註資訊精細。KdConv 除了提供對話相關的知識圖譜資訊外,還為數據集中每一句對話標註了其相關的知識三元組資訊,這種句子級的知識標註可以為知識驅動的對話生成任務提供細緻的監督訊號,而且可以在對話歷史中進行知識規劃的建模。
2、知識交互全面。KdConv 提供了包含結構化的知識圖譜以及非結構化的長文本作為背景知識的全面的知識來源,同時由於在構造對話的過程中,沒有指定任何目標約束,使得對話中的知識交互方式包含問答、討論、遷移等全面的交互方式。
3、領域覆蓋多樣。KdConv 提供了包含電影、音樂和旅遊三種領域的知識驅動的對話數據,結果顯示,對話模型在不同領域之間的性能差異明顯,說明遷移學習和領域轉換方面的工作值得進一步研究。
收集數據時模擬的對話場景是兩名用戶討論某一個領域的話題,通過對話的形式豐富雙方的知識,具體包含以下兩個步驟:
由於知識圖譜的稀疏性和龐大的數據規模難以處理,我們通過從幾個領域相關的網站上抓取最受歡迎的電影和電影明星、音樂和歌手、景點作為起始實體,縮小了特定領域知識的範圍。
過濾掉知識三元組較少的起始實體後,電影/音樂/旅遊領域分別包含559/421/476個起始實體。給定起始實體作為種子,我們從XLORE(一個大規模的英漢雙語知識圖譜)中檢索出它們的鄰居實體。我們將起始實體和這些檢索到的實體和關係合併成特定領域知識圖譜。構建KdConv時使用的知識圖譜的統計結果見下表。
我們通過眾包的方式招募標註者來生成與特定領域知識圖譜相關的多輪對話。在對話過程中,沒有任何預設目標或約束,兩個對話者都可以訪問知識圖譜。
允許兩個參與者訪問知識,在我們的語料庫中,雙方可以動態地改變角色,作為領導者或跟隨者,這對人類對話來說更自然、更真實。
除了製作對話語料之外,如果標註者根據某些語料庫生成的語料,還要求標註者記錄相關的知識三元組。為了保證生成的對話的自然性,我們過濾掉了低品質的對話,其中包含語法錯誤、知識事實的不一致等低品質的對話。
KdConv 數據集相關的知識圖譜與對話的數據統計資訊如下表所示。
由於精細的標註資訊,全面的知識交互,多樣的領域覆蓋, KdConv數據集可用於多種對話任務的研究。
我們提供了基於檢索式和生成式的基準線對話模型性能,實驗結果顯示,這些模型可以通過引入背景知識來增強模型的性能,然而利用知識進行多輪對話建模仍有很大的提升空間,有待進一步研究。
結果還顯示,對話模型在不同領域之間的性能差異明顯,說明遷移學習和領域轉換方面的工作值得進一步研究。
自動評價指標。生成模型和檢索模型的最佳結果分別用黑體和下劃線表示。”+know “指的是引入知識圖譜的模型。