言語情緒識別(CS SD)

  • 2019 年 12 月 28 日
  • 筆記

原文題目:Emotion Recognition from Speech

在本文中,我們基於情緒識別系統對各種演講方法進行了廣泛的比較。從數據庫瑞爾森視聽記錄情感的演講和歌曲(RAVDESS)對音頻進行了分析。具有諸如功能如日誌梅爾譜圖,梅爾倒譜係數(MFCCs)的內容,在經過了預處理後的原始音頻文件階段後,音高和能量的因素也被考慮在內。這些情緒分類的重要性是通過運用如長短時記憶(LSTM)、卷積神經網絡(CNNs)、隱馬爾可夫模型(HMMs)和Deep Neural Networks (DNNs)等方法進行比較而得到的。在14級(2種性別×7種情緒)分類項目中任務中,使用對數-梅爾光譜儀功能的4層2維CNN的準確率達到。我們還觀察到,在情感識別中音頻特性的選擇對結果的影響遠遠大於模型的複雜性。

原文作者:Kannan Venkataramanan, Haresh Rengaraj Rajamohan

原文地址:http://cn.arxiv.org/abs/1912.10458