3 个月前

大规模原始情感数据集及其聚合机制

大规模原始情感数据集及其聚合机制

摘要

我们提出了一种用于语音情感识别(Speech Emotion Recognition, SER)任务的新数据集,名为 Dusha。该语料库包含约350小时的语音数据,涵盖超过30万条俄语语音录音及其对应的转写文本,是目前规模最大、公开可用的双模态(音频与文本)SER数据集。数据集通过众包平台进行标注,包含两个子集:演绎类(acted)和真实场景类(real-life)。其中,演绎类子集的各类别分布更为均衡,而真实场景子集则由未经调控的播客音频构成,类别分布较为不均衡。因此,演绎类子集适用于模型预训练,而真实场景子集则更适合作为模型微调、性能验证与评估的基准。本文详细介绍了数据的预处理流程、标注方法,并基于基线模型开展实验,以展示利用 Dusha 数据集可获得的实际性能指标。

代码仓库

基准测试

基准方法指标
speech-emotion-recognition-on-dusha-crowdDusha baseline
Macro F1: 0.77
UA: 0.83
WA: 0.76
speech-emotion-recognition-on-dusha-podcastDusha baseline
Macro F1: 0.54
UA: 0.89
WA: 0.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模原始情感数据集及其聚合机制 | 论文 | HyperAI超神经