言语情绪识别(CS SD)
- 2019 年 12 月 28 日
- 笔记
原文题目:Emotion Recognition from Speech
在本文中,我们基于情绪识别系统对各种演讲方法进行了广泛的比较。从数据库瑞尔森视听记录情感的演讲和歌曲(RAVDESS)对音频进行了分析。具有诸如功能如日志梅尔谱图,梅尔倒谱系数(MFCCs)的内容,在经过了预处理后的原始音频文件阶段后,音高和能量的因素也被考虑在内。这些情绪分类的重要性是通过运用如长短时记忆(LSTM)、卷积神经网络(CNNs)、隐马尔可夫模型(HMMs)和Deep Neural Networks (DNNs)等方法进行比较而得到的。在14级(2种性别×7种情绪)分类项目中任务中,使用对数-梅尔光谱仪功能的4层2维CNN的准确率达到。我们还观察到,在情感识别中音频特性的选择对结果的影响远远大于模型的复杂性。
原文作者:Kannan Venkataramanan, Haresh Rengaraj Rajamohan
原文地址:http://cn.arxiv.org/abs/1912.10458