3 个月前

STARSS22:包含声事件时空标注的真实场景空间录音数据集

STARSS22:包含声事件时空标注的真实场景空间录音数据集

摘要

本报告介绍了索尼-塔乌真实空间声景2022(Sony-TAu Realistic Spatial Soundscapes 2022,简称 STARS22)数据集,该数据集用于声音事件定位与检测任务。STARS22 数据集由两个不同场所内多种室内场景的真实空间声学记录组成,采用高分辨率球形麦克风阵列进行采集,并以两种四通道格式提供:一阶 Ambisonics 格式与四面体麦克风阵列格式。数据集中包含13类目标声音事件,其时间与空间信息通过人工标注结合光学追踪技术进行双重标注。该数据集作为 DCASE2022 声音事件定位与检测挑战赛中任务3(Task 3)的开发与评估数据集,相较于以往基于合成空间化声景录音的版本,引入了显著的新挑战。报告详细阐述了数据集的各项技术规格,包括录音与标注流程、目标类别及其分布情况,以及开发集与测试集的划分细节。此外,报告还介绍了随数据集一同发布的基准系统,重点说明其与以往迭代版本基准系统的差异:首次引入多ACCDOA(multi-ACCDOA)表示方法,以有效处理同一类别声音事件的多重同时发生情况;同时,增强了对麦克风阵列输入特征的支持,引入了性能更优的附加输入特征。基准系统实验结果表明,通过采用合适的训练策略,可在真实声景录音上实现较为理想的检测与定位性能。该数据集现已公开发布,可通过 https://zenodo.org/record/6387880 获取。

代码仓库

prerak23/dir_srcmic_doa
pytorch
GitHub 中提及

基准测试

基准方法指标
sound-event-localization-and-detection-on-1Baseline (FOA)
Class-dependent localization error: 29.3
Class-dependent localization recall: 46
Localization-dependent error rate (20°): 71
location-dependent F1-score (macro): 21
location-dependent F1-score (micro): 0.36
sound-event-localization-and-detection-on-1Baseline (MIC)
Class-dependent localization error: 32.2
Class-dependent localization recall: 47
location-dependent F1-score (macro): 18
location-dependent F1-score (micro): 0.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
STARSS22:包含声事件时空标注的真实场景空间录音数据集 | 论文 | HyperAI超神经