3 个月前

EasyCom:一种用于支持嘈杂环境中简易通信算法的增强现实数据集

EasyCom:一种用于支持嘈杂环境中简易通信算法的增强现实数据集

摘要

增强现实(AR)作为一种平台,具备缓解“鸡尾酒会效应”(cocktail party effect)的潜力。未来的AR眼镜有望整合来自多种模态传感器的丰富信息。在诸如波束成形(beam-forming)和语音增强等任务中,训练与测试信号处理及机器学习算法,需要高质量且具有代表性的数据。据作者所知,在本文发表时,尚无公开可用的数据集能够提供在嘈杂环境中包含动态运动与对话的同步第一人称多通道音频与视频数据。本文中,我们描述、评估并发布了一个多模态数据集,其中包含超过5小时的高质量数据,可用于训练和测试旨在提升AR眼镜佩戴者对话体验的算法。我们对基线方法在语音可懂度、语音质量以及信噪比提升等方面进行了评估,并在所有测试指标上均取得了显著改进。本数据集包含以下内容:AR眼镜佩戴者视角的多通道麦克风阵列音频、广角RGB视频、语音源位姿信息、头戴设备内置麦克风音频、语音活动标注、语音转录文本、头部边界框、对话目标识别标签以及语音源身份标签。我们构建并公开发布该数据集,旨在推动多模态AR解决方案在应对鸡尾酒会效应方面的研究进展。

基准测试

基准方法指标
speech-enhancement-on-easycomMaxDI (Baseline)
ESTOI: 0.379
HASPI: 0.830
HASQI: 0.249
PESQ: 1.17
SDR: -12.9
SI-SDR: -23.4
SIIB: 139
SNR: -10.1
STOI: 0.544
SegSNR: -12.2
ViSQOL: 1.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EasyCom:一种用于支持嘈杂环境中简易通信算法的增强现实数据集 | 论文 | HyperAI超神经