3 个月前

回放:用于音频识别的迭代注意力机制

回放:用于音频识别的迭代注意力机制

摘要

听觉认知的一个关键功能是随时间将特定声音与其对应语义建立关联。当人类需要区分细微的音频类别时,常常会重复播放具有判别性的声音片段,以提升其预测置信度。为此,我们提出一种端到端的基于注意力机制的架构,通过选择性重复机制,聚焦于音频序列中最具判别性的声音片段。该模型首先利用完整的音频序列,并基于槽位注意力(slot attention)机制,迭代地优化需重复播放的时间片段。在每次重播过程中,选定的片段以更小的跳长(hop length)进行重播,从而提取这些片段内部的高分辨率特征。实验结果表明,该方法在三个音频分类基准数据集——AudioSet、VGG-Sound 和 EPIC-KITCHENS-100 上均能持续达到当前最优性能。

代码仓库

基准测试

基准方法指标
audio-classification-on-audiosetPlayItBackX3
Test mAP: 0.477
audio-classification-on-epic-kitchens-100PlayItBackX3
Top-1 Action: 15.9
Top-1 Noun: 23.1
Top-1 Verb: 47
Top-5 Action: 29.2
Top-5 Noun: 45.1
Top-5 Verb: 78.7
audio-classification-on-vggsoundPlayItBackX3
AUC: 97.8
Mean AP: 56.1
Top 1 Accuracy: 53.7
Top 5 Accuracy: 79.2
d-prime: 2.846

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
回放:用于音频识别的迭代注意力机制 | 论文 | HyperAI超神经