深度學習能學會幽默嗎?TED影片可能有點難
- 2019 年 11 月 26 日
- 筆記
論文標題:UR-FUNNY: A Multimodal Language Dataset forUnderstanding Humor
作者:Md Kamrul Hasan, Wasifur Rahman, Amir Zadeh,Jianyuan Zhong, Md Iftekhar Tanveer, Louis-Philippe Morency, Mohammed (Ehsan) Hoque
下載鏈接:https://arxiv.org/abs/1904.06618
發表時間:2019年4月14日
EMNLP2019論文
幽默是一種複雜而富有創建性的交際行為,產生於語言、語音語調、手勢、身體姿態等多模態的行為中。幽默檢測已經是自然語言處理所關注的一個問題,在過去也有一些英語的幽默語料。為了豐富這個問題的研究,研究人員們收集和提出了越來越多的數據集,例如俄語的幽默語料[1]。
這篇論文最大的貢獻在於提出了一個名為UR-FUNNY的多模態數據集,包含了文本、音頻和影片,為理解使用無表情幽默的多模式語言打開了大門。與以往的數據集相比,UR-FUNNY是第一個同時涵蓋了文本、音頻和影片的數據集(見表1)。這篇論文介紹了UR-FUNNY的來源、數據集描述、特徵的提取並給出了基準模型分類的實驗結果。圖1展示了UR-FUNNY中的一個實例。
表1. UR-FUNNY與已有的幽默檢測數據集的對比,其中#Pos和#Neg分別代表正負樣本的數量,Mod一欄t代表text,a代表audio,v代表video。


圖1. UR-FUNNY中的一個例子。
數據來源
UR-FUNNY來自於公開的TED演講。使用TED演講的素材在自然語言處理相關的問題中有諸多好處:演講人和話題多樣,具有手動生成的字幕和聽眾標記,特別是利用laughter標記可以識別笑點所在的位置,從而標註出幽默所對應的素材片段。
這篇論文使用了1866個TED英文演講的影片及它們的字幕,這些影片包含了1741個演講者和417個話題。基於laughter標記,作者們提取了8257個幽默片段,並且另外隨機挑選了8257個非幽默片段。
數據集描述
表2和圖2中給出了UR-FUNNY的一些統計特徵。幽默和非幽默樣本的統計特徵沒有明顯的差別,因此無法通過簡單的度量指標進行分類。
表2. UR-FUNNY數據集統計指標。


圖2. UR-FUNNY數據統計描述。
作者們也將數據集劃分成了訓練集,驗證集和測試集,統計指標見表3。
表3. UR-FUNNY數據集中訓練集、驗證集和測試集的統計。

特徵提取
作者們採取了現有的成熟工具包對三個維度的原始語料進行了特徵提取:
(1)文本:使用了Glove word embedding [2] 和P2FA forcedalignment model [3];
(2)音頻:使用了COVAREP軟體[4]提取了81個特徵;
(3)影片:使用了OpenFace面部行為分析工具[5]。
模型和實驗
作者們基於基於記憶融合網路(Memory Fusion Network, MFN)[6]進行改進並提出了一個名為上下文記憶融合網路(Contextual Memory Fusion Network, C-MFN)的基準模型。C-MFN由三部分組成:
(1)單模態上下文網路:如圖3所示,每一個模式的資訊通過M個長短時記憶網路進行編碼,輸出記作H;
(2)多模態上下文網路:如圖4所示,利用自注意力機制從單模態資訊H中提取出多模態資訊

;
(3)記憶融合網路:如圖5所示,使用了基於H和

進行參數初始化的方式和標準的記憶融合網路模型。

圖3. 單模態上下文網路的結構。

圖4. 多模態上下文網路的結構。

圖5. 記憶融合網路及初始化。
在C-MFN的基礎上,作者們還考察了只使用笑點語句的C-MFN (P)和只使用上下文語句的C-MFN (C)。實驗中,作者們使用了不同程度的輸入組合:T(只有文本),T+V(文本+影片),T+A(文本+音頻),A+V(音頻+影片),T+A+V(文本+音頻+影片)。除了C-MFN的不同變種之間的比較,作者們還嘗試了一個隨機森林分類器,作為非神經網路結構的代表。
結果和討論
不同輸入組合下C-MFN的分類準確率見表4.當所有模式的數據都輸入時,C-MFN取得了最高的65.23%的準確率,這一結果高於隨機森林(57.78%),但還遠遠低於人類的表現(82.5%)。

表4. 不同輸入組合下,不同C-MFN的分類準確率。
結論
這篇論文為幽默檢測問題貢獻了一個包含了文本、音頻和影片的多模態數據集,並且提出了一個名為上下文記憶融合網路的基準分類模型。實驗結果表明使用多模態的數據能夠更準確地檢測幽默,而且笑點和上下文在理解幽默的過程中都很重要。
同時這篇論文的結果也指出,這個上下文記憶融合網路的識別結果距離人類表現還有一些差距,有待後續的研究在這個數據集上提出更好的模型。
參考
[1] Blinov V,Bolotova-Baranova V, Braslavski P. Large Dataset and Language Model Fun-Tuningfor Humor Recognition[C]//Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics. 2019: 4027-4032.
[2] Pennington J,Socher R, Manning C. Glove: Global vectors for wordrepresentation[C]//Proceedings of the 2014 conference on empirical methods innatural language processing (EMNLP). 2014: 1532-1543.
[3] Yuan J, LibermanM. Speaker identification on the SCOTUS corpus[J]. Journal of the AcousticalSociety of America, 2008, 123(5): 3878.
[4] Degottex G, KaneJ, Drugman T, et al. COVAREP—A collaborative voice analysis repository forspeech technologies[C]//2014 ieee international conference on acoustics, speechand signal processing (icassp). IEEE, 2014: 960-964.
[5] Baltrušaitis T,Robinson P, Morency L P. Openface: an open source facial behavior analysistoolkit[C]//2016 IEEE Winter Conference on Applications of Computer Vision(WACV). IEEE, 2016: 1-10.
[6] Zadeh A, Liang PP, Mazumder N, et al. Memory fusion network for multi-view sequentiallearning[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.