4 个月前

EAT:基于高效音频变换器的自监督预训练

EAT:基于高效音频变换器的自监督预训练

摘要

音频自监督学习(Self-Supervised Learning, SSL)预训练旨在从无标签的音频数据中学习高质量的表示,已取得了显著进展。然而,预训练过程中的巨大计算需求对音频SSL模型的潜在应用和优化构成了重大障碍。在本文中,受到图像模态下data2vec 2.0和音频模态下Audio-MAE成功经验的启发,我们引入了高效音频变压器(Efficient Audio Transformer, EAT),以进一步提升音频SSL的有效性和效率。所提出的EAT将引导自监督训练范式应用于音频领域。设计了一种新颖的语音帧目标(Utterance-Frame Objective, UFO),以增强声学事件的建模能力。此外,我们揭示了掩码策略在音频SSL预训练中的重要性,并发现使用大逆向块掩码可以获得更优的音频表示。实验结果表明,EAT在包括AudioSet(AS-2M, AS-20K)、ESC-50和SPC-2在内的多种音频相关任务上达到了最先进的(State-of-the-Art, SOTA)性能,并且相比现有的音频SSL模型,预训练速度提高了约15倍。

代码仓库

cwx-worst-one/eat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audiosetEAT
Test mAP: 0.486
audio-classification-on-balanced-audio-setEAT
Mean AP: 40.3
audio-classification-on-esc-50EAT
Accuracy (5-fold): 96.0
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 96.0
audio-classification-on-speech-commands-1EAT
Accuracy: 98.3±0.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EAT:基于高效音频变换器的自监督预训练 | 论文 | HyperAI超神经