
摘要
听觉认知的一个关键功能是随时间将特定声音与其对应语义建立关联。当人类需要区分细微的音频类别时,常常会重复播放具有判别性的声音片段,以提升其预测置信度。为此,我们提出一种端到端的基于注意力机制的架构,通过选择性重复机制,聚焦于音频序列中最具判别性的声音片段。该模型首先利用完整的音频序列,并基于槽位注意力(slot attention)机制,迭代地优化需重复播放的时间片段。在每次重播过程中,选定的片段以更小的跳长(hop length)进行重播,从而提取这些片段内部的高分辨率特征。实验结果表明,该方法在三个音频分类基准数据集——AudioSet、VGG-Sound 和 EPIC-KITCHENS-100 上均能持续达到当前最优性能。
代码仓库
alexandrosstergiou/PlayItBack
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | PlayItBackX3 | Test mAP: 0.477 |
| audio-classification-on-epic-kitchens-100 | PlayItBackX3 | Top-1 Action: 15.9 Top-1 Noun: 23.1 Top-1 Verb: 47 Top-5 Action: 29.2 Top-5 Noun: 45.1 Top-5 Verb: 78.7 |
| audio-classification-on-vggsound | PlayItBackX3 | AUC: 97.8 Mean AP: 56.1 Top 1 Accuracy: 53.7 Top 5 Accuracy: 79.2 d-prime: 2.846 |