3 个月前

通过可微架构搜索增强语音情感识别

通过可微架构搜索增强语音情感识别

摘要

语音情感识别(Speech Emotion Recognition, SER)是实现人机交互中情感感知通信的关键技术。近年来,深度学习(Deep Learning, DL)的进展通过提升模型复杂度显著增强了SER模型的性能。然而,设计最优的深度学习架构通常依赖于丰富的经验积累与大量的实验验证。值得鼓舞的是,神经架构搜索(Neural Architecture Search, NAS)为自动寻找最优深度学习模型提供了极具前景的解决方案。其中,可微分架构搜索(Differentiable Architecture Search, DARTS)是一种高效且先进的NAS方法,可用于自动搜索优化的网络结构。本文提出一种基于DARTS优化的联合卷积神经网络(CNN)与长短期记忆网络(LSTM)架构,以进一步提升SER性能。文献研究为CNN与LSTM的耦合方式提供了依据,从而实现更优的性能表现。尽管DARTS此前已被应用于CNN与LSTM的组合搜索,但本文提出了一种新颖的机制,尤其体现在利用DARTS进行CNN操作选择的方式上。与以往研究不同,本文未对DARTS单元中CNN层的顺序施加约束,而是允许DARTS自主决定最优的层序结构。在IEMOCAP与MSP-IMPROV两个公开数据集上的实验结果表明,所提出的方法在SER准确率方面显著优于人工设计的CNN-LSTM结构配置,同时亦超越了现有文献中采用DARTS优化CNN-LSTM架构所报告的最佳性能。

代码仓库

jayaneetha/emoDARTS
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-emotion-recognition-on-iemocapCNN - DARTS
UA: 0.696

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过可微架构搜索增强语音情感识别 | 论文 | HyperAI超神经