3 个月前

emotion2vec:面向语音情感表征的自监督预训练

emotion2vec:面向语音情感表征的自监督预训练

摘要

我们提出了一种通用的语音情感表示模型——emotion2vec。emotion2vec通过自监督在线蒸馏方法,在开源的无标签情感数据上进行预训练,预训练过程中同时结合了话语级损失与帧级损失。在主流的IEMOCAP数据集上,仅需对emotion2vec微调线性层即可完成语音情感识别任务,其性能超越了当前最先进的通用预训练模型以及专用情感识别模型。此外,emotion2vec在10种不同语言的语音情感识别数据集上均展现出一致的性能提升。该模型在其他情感相关任务中也表现优异,包括歌曲情感识别、对话中的情感预测以及情感分析。通过对比实验、消融实验与可视化分析,全面验证了emotion2vec的通用性能力。据我们所知,emotion2vec是首个在多种情感相关任务中实现通用表示的模型,填补了该领域的研究空白。

代码仓库

ddlBoJack/emotion2vec
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-emotion-recognition-on-resdemotion2vec+base
Unweighted Accuracy (UA): 79.8
Weighted Accuracy (WA): 79.4
Weighted F1: 79.4
speech-emotion-recognition-on-resdemotion2vec+large
Unweighted Accuracy (UA): 69.1
Weighted Accuracy (WA): 69.5
Weighted F1: 68.8
speech-emotion-recognition-on-resdemotion2vec
Unweighted Accuracy (UA): 65.04
Weighted Accuracy (WA): 64.75
Weighted F1: 64.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
emotion2vec:面向语音情感表征的自监督预训练 | 论文 | HyperAI超神经