Interspeech 2019 | 基於多模態對齊的語音情感識別
- 2019 年 10 月 7 日
- 筆記
本文來自公眾號滴滴科技合作,AI科技評論獲授權轉載,如需轉載請聯繫原公眾號。
Interspeech 2019

Interspeech 2019現場
作者 | 滴滴AI Labs 編輯 | 唐里
語音領域頂級學術會議 Interspeech於2019年9月15-19日在奧地利格拉茨舉行。
在 Interspeech 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、說話人識別等細分領域。在會議上展示的研究成果代表著語音相關領域的最新研究水平和未來的發展趨勢。
本次會議共吸引2180篇論文投遞,其中75%來自學界,22%來自工業界。

論文地址:https://arxiv.org/abs/1909.05645
語音情感識別是一個非常具有挑戰性的問題,因為人們總是以微妙和複雜的方式傳達情感。對於語音情感識別,當前的方法主要包括:1)直接通過語音訊號特徵;2)通過語音識別的文本特徵;3)融合音頻-文本的多模態特徵。當前的方法忽視了音頻和識別文本在時序空間的交互。
在本篇論文中,滴滴提出基於多模態對齊的語音情感識別的模型。在語音情感識別的公開數據集IEMOCAP取得了當前最好的性能。
基於多模態的語音情感識別的方法可以用於智慧客服(如客服質檢,機器人客服互動式語音應答),其中機器人客服質檢主要是根據語音和識別文本對客服和用戶的情緒進行分析,輔助質檢,機器人客服互動式語音應答主要是根據語音和識別文本對進線用戶的情緒進行分析,合理應答。
模型

本文提出的多模態對齊的語音情感識別的模型,主要包括語音的編碼器模組,語音識別文本的編碼器模組,以及基於注意力機制的多模態融合網路模組,具體的模型結構圖如上圖。
語音的編碼器模組
我們首先獲取語音的低維度的基於幀的MFCC特徵,然後用BiLSTM對音頻基於幀進行高維特徵表示。
語音識別文本的編碼器模組
我們首先預訓練(Pretraining)來獲取單詞的詞向量(Word Embedding)表示,然後用BiLSTM對ASR識別文本基於單詞進行高維特徵表示。
基於注意力機制的多模態融合網路模組
我們利用Attention機制動態學出每個單詞文本特徵的權重和每幀語音的特徵,然後加權求和得到每個單詞的語音對齊的特徵,接著我們將對齊的特徵和文本的特徵拼接並用BiLSTM來做特徵的融合,最後我們用最大池化層和全連接層進行情感分類。
實驗
論文在語音情感識別的公開數據集IEMOCAP評測了模型。IEMOCAP數據集是由10個演員錄製,對話主要包括10個情感。論文與之前的方法保持一致使用了主要的4個情感(生氣,開心,中性,傷心)。

在實驗中,論文選擇 1)直接通過語音訊號特徵 2)通過語音識別的文本特徵 3)融合音頻-文本的多模態特徵這三類方法的對比,通過上圖(Table 1),可以看出本論文的模型在加權精確度(WA)和非加權精確度(UA)評價指標都有顯著提高,證明了學習音頻和文本對齊資訊的多模學習方法的有效性。

此外,論文也分析了識別結果和對齊方式的影響,通過Table 2(上圖),可以看出如果使用數據集提供的正確的文本,相比識別文本能有一定的提升。基於attention的動態的基於情感的對齊資訊,相比基於ASR的對齊方式更為有效。