
摘要
语音情感识别(Speech Emotion Recognition, SER)是实现人机交互中情感感知通信的关键技术。近年来,深度学习(Deep Learning, DL)的进展通过提升模型复杂度显著增强了SER模型的性能。然而,设计最优的深度学习架构通常依赖于丰富的经验积累与大量的实验验证。值得鼓舞的是,神经架构搜索(Neural Architecture Search, NAS)为自动寻找最优深度学习模型提供了极具前景的解决方案。其中,可微分架构搜索(Differentiable Architecture Search, DARTS)是一种高效且先进的NAS方法,可用于自动搜索优化的网络结构。本文提出一种基于DARTS优化的联合卷积神经网络(CNN)与长短期记忆网络(LSTM)架构,以进一步提升SER性能。文献研究为CNN与LSTM的耦合方式提供了依据,从而实现更优的性能表现。尽管DARTS此前已被应用于CNN与LSTM的组合搜索,但本文提出了一种新颖的机制,尤其体现在利用DARTS进行CNN操作选择的方式上。与以往研究不同,本文未对DARTS单元中CNN层的顺序施加约束,而是允许DARTS自主决定最优的层序结构。在IEMOCAP与MSP-IMPROV两个公开数据集上的实验结果表明,所提出的方法在SER准确率方面显著优于人工设计的CNN-LSTM结构配置,同时亦超越了现有文献中采用DARTS优化CNN-LSTM架构所报告的最佳性能。
代码仓库
jayaneetha/emoDARTS
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-emotion-recognition-on-iemocap | CNN - DARTS | UA: 0.696 |