3 个月前

PSLA:通过预训练、采样、标签化与聚合提升音频标注

PSLA:通过预训练、采样、标签化与聚合提升音频标注

摘要

音频标记(Audio Tagging)是一个活跃的研究领域,具有广泛的应用前景。自AudioSet数据集发布以来,模型性能取得了显著进步,这主要得益于新型模型架构和注意力模块的不断发展。然而,我们发现,对于基于AudioSet构建音频标记模型而言,合适的训练技术同样至关重要,但这一方面尚未得到应有的关注。为填补这一空白,本文提出PSLA——一套系统化的训练技术集合,能够显著提升模型精度,包括ImageNet预训练、平衡采样、数据增强、标签增强、模型集成及其设计选择。通过结合这些技术训练EfficientNet模型,我们获得了一个单模型(参数量为1360万)和一个集成模型,其在AudioSet上的平均精度均值(mAP)分别达到0.444和0.474,显著优于此前最佳系统(0.439,参数量8100万)。此外,我们的模型在FSD50K数据集上也取得了新的最先进mAP成绩,达到0.567。

代码仓库

YuanGongND/psla
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audiosetPSLA (Single)
AUC: 0.975
Test mAP: 0.443
d-prime: 2.778
audio-classification-on-audiosetPSLA (Ensemble)
AUC: 0.981
Test mAP: 0.474
d-prime: 2.936
audio-classification-on-fsd50kPSLA
mAP: 56.71
audio-tagging-on-audiosetPSLA
mean average precision: 0.474

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PSLA:通过预训练、采样、标签化与聚合提升音频标注 | 论文 | HyperAI超神经