Jacob DonleyVladimir TourbabinJung-Suk LeeMark BroylesHao JiangJie ShenMaja PanticVamsi Krishna IthapuRavish Mehra

摘要
增强现实(AR)作为一种平台,具备缓解“鸡尾酒会效应”(cocktail party effect)的潜力。未来的AR眼镜有望整合来自多种模态传感器的丰富信息。在诸如波束成形(beam-forming)和语音增强等任务中,训练与测试信号处理及机器学习算法,需要高质量且具有代表性的数据。据作者所知,在本文发表时,尚无公开可用的数据集能够提供在嘈杂环境中包含动态运动与对话的同步第一人称多通道音频与视频数据。本文中,我们描述、评估并发布了一个多模态数据集,其中包含超过5小时的高质量数据,可用于训练和测试旨在提升AR眼镜佩戴者对话体验的算法。我们对基线方法在语音可懂度、语音质量以及信噪比提升等方面进行了评估,并在所有测试指标上均取得了显著改进。本数据集包含以下内容:AR眼镜佩戴者视角的多通道麦克风阵列音频、广角RGB视频、语音源位姿信息、头戴设备内置麦克风音频、语音活动标注、语音转录文本、头部边界框、对话目标识别标签以及语音源身份标签。我们构建并公开发布该数据集,旨在推动多模态AR解决方案在应对鸡尾酒会效应方面的研究进展。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-easycom | MaxDI (Baseline) | ESTOI: 0.379 HASPI: 0.830 HASQI: 0.249 PESQ: 1.17 SDR: -12.9 SI-SDR: -23.4 SIIB: 139 SNR: -10.1 STOI: 0.544 SegSNR: -12.2 ViSQOL: 1.68 |