ACL2020 | 對話數據集Mutual:論對話邏輯,BERT還差的很遠
- 2020 年 4 月 19 日
- AI
自然語言處理是人工智慧領域的掌上明珠,而人機對話則是自然語言處理領域的最終極一環
註:本文為MuTual論文作者 @Dr.Wu 的特別約稿,與 @李如 編輯整理
以BERT為代表的預訓練模型為自然語言處理領域帶來了新的春天,在人機對話問題上也不例外。檢索式多輪對話任務中,最有名的對話數據集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基於BERT來做卻直接刷到了85.8%的 ,93.1%的
和高達98.5%的
,已經基本逼近了人類的表現(英語差的可能已被BERT超越),這讓很多研究檢索式聊天機器人的小夥伴直呼這個領域沒法繼續往下做了。。

那麼問題來了,既然聊天機器人在BERT的帶領下超越人類了,為什麼跟我打交道的聊天機器人依然宛如人工智障???
一言以蔽之,上個時代的對話數據集太弱了!!!
相信很多和聊天機器人對(liao)話(sao)過的小夥伴們都有感覺,就是每句話都回復的沒什麼毛病,但它像是只有三秒的記憶時間,回復的內容和前文的連貫性很差,甚至會出現自相矛盾的語句。比如
我:吃飯了嗎
機器人:吃了個蘋果,最近在減肥。。。
我:你不胖呀
機器人:我不要減肥
我:

當前的對話模型往往選擇出的回復相關性較好,但是經常出現常識和邏輯錯誤。由於現有的大部分檢索式對話數據集都沒有正面剛這種對話邏輯問題,導致評價指標也無法直接反映一個模型對對話邏輯的掌握程度。針對此問題,西湖大學聯合微軟研究院提出了多輪對話推理數據集MuTual。

相比現有的其他檢索式聊天數據集,MuTual要求對話模型具備常識推理能力;相比閱讀理解式的推理數據集,MuTual的輸入輸出則完全符合標準檢索式聊天機器人的流程。因此,MuTual也是目前最具挑戰性的對話式數據集。測試過多個模型後,目前最佳的RoBERTa表現僅為70分左右,和人類的表現存在20多分的巨大差距。
此篇論文也發表在了ACL2020上。
論文地址://arxiv.org/abs/2004.04494
github地址://github.com/Nealcly/MuTual
arxiv訪問慢的小夥伴也可以在同名微信公眾號【夕小瑤的賣萌屋】後台回復關鍵詞【0413】下載論文PDF。
數據集特點
現有的檢索式聊天機器人數據集,諸如Ubuntu,Douban,對於給定的多輪對話,需要模型在若干候選回復中,選出最合適的句子作為對話的回復。然而這些數據集主要關注模型能否選出相關性較好的回復,並不直接考察模型的推理能力。隨著BERT等預訓練模型的湧現,此類數據集的測試集合已經達到了很好的效果。
已有的針對推理的數據集(DROP, CommonsenseQA, ARC, Cosmos等)大多被設計為閱讀理解格式。它們需要模型在閱讀文章後回答額外問題。由於任務不同,這些現有的推理數據集並不能直接幫助指導訓練聊天機器人。下圖為對話和推理式閱讀理解的常用數據集:

基於目前對話數據集的缺陷,Mutual被提出,一個直接針對Response Selection的推理數據集。
數據集構建
MuTual基於中國高考英語聽力題改編。聽力測試要求學生根據一段雙人多輪對話,回答額外提出的問題。並通過學生能否正確答對問題衡量學生是否理解了對話內容。為了更自然的模擬開放領域對話,我們進一步將聽力題中額外的問題轉化為對話中的回復。

標註者截選原對話中具備回答問題資訊的片段,根據正確選項構造正確的回復(上圖回復A),根據兩個錯誤選項構造兩個錯誤的回復(回復C和回復D)。
為了進一步提升難度,引入額外的推理資訊,標註者還需根據正確選項構建一個負面的回復(回復B)。另外,標註者需要保證在無上文資訊情況下,所有候選回復在邏輯上皆合理。這樣可以讓數據集聚焦於檢測模型在多輪對話中的推理能力,而非判斷單個句子是否具有邏輯性。
作者還在標註過程中控制正確和錯誤的回復與上文的辭彙重疊率相似,防止模型可以通過簡單的根據文本匹配選出候選回復。構造出的數據集主要包含聊天機器人需要的六種推理能力:態度推理(13%), 數值推理(7%), 意圖預測(31%),多事實推理(24%)和常識等其他推理類型(9%)。

在真實應用場景中,檢索式對話模型無法檢索所有可能的回復,如果沒有檢索到合適的回復,系統應具有給予安全回復(safe response)的能力。為了模擬這一場景,MuTualplus被提出。對於每個實例,MuTualplus隨機替換掉MuTual中一個候選回復。如果正確回復被替換,安全回復即為新的正確回復。如果錯誤回復被替換,原正確回復仍為四個回復中最合適的。
實驗
論文測試了主流的檢索式對話模型(LSTM, SMN, DAM)和預訓練語言模型(GPT, BERT, RoBERTa)在MuTual和MuTualplus上的表現,以Recall@1(正確檢索結果出現在檢索結果第一位), Recall@2(正確檢索結果出現在檢索結果前兩位), MRR(Mean Reciprocal Rank,正確檢索結果在檢索結果中的排名的倒數)作為評價指標。

從結果可以看到,之前的檢索式對話模型在此種任務上,表現只比Random的情況好一點。不過預訓練模型也不能取得很好的效果,甚至RoBERTa也只能達到71%的Recall@1。然而未經培訓的非母語者可以輕鬆達到94%。
進一步研究發現,模型表現不會隨著對話輪數增加而變差(推理能力並不依賴複雜的對話歷史)。在推理類型方面,模型在數值推理和意圖推測中表現的較差。下圖第一個例子中,時差運算只需簡單的減法(5:00pm – 6h = 11:00am),第二個例子需要推理出對話出現在租房場景中,然而對現有的深度學習模型依然十分困難。

總結
儘管BERT為代表的預訓練模型很大程度上解決了檢索式對話的回復相關性問題,但是依然難以解決真實對話場景中的常識和邏輯問題,導致聊天機器人的真實用戶體驗依然不盡人意。現有的檢索式對話數據集大都沒有直接對該問題進行建模,因此我們提出了MuTual數據集,針對性的評測模型在多輪對話中的推理能力。
論文地址://arxiv.org/abs/2004.04494
github地址://github.com/Nealcly/MuTual
arxiv訪問慢的小夥伴也可以在同名微信訂閱號【夕小瑤的賣萌屋】後台回復關鍵詞【0413】下載論文PDF。