3 个月前

M2D-CLAP:掩码建模双通道融合CLAP以学习通用音频-语言表征

M2D-CLAP:掩码建模双通道融合CLAP以学习通用音频-语言表征

摘要

对比语言-音频预训练(Contrastive Language-Audio Pre-training, CLAP)实现了音频的零样本(Zero-Shot, ZS)推理,并在多项分类任务中展现出优异性能。然而,在许多零样本不适用的任务中(如回归问题),传统的音频表示仍至关重要。为此,本文探索了一种新型通用音频-语言表示方法,该方法在零样本推理与迁移学习任务中均表现良好。为此,我们提出一种新方法——M2D-CLAP,该方法结合了自监督学习中的掩码建模双分支(Masked Modeling Duo, M2D)与CLAP。其中,M2D旨在学习能够有效建模音频信号的表示,而CLAP则将该表示与文本嵌入对齐。由此,M2D-CLAP能够学习到一种具备高度通用性的音频-语言表示,既支持零样本推理,也适用于迁移学习。实验结果表明,M2D-CLAP在线性评估、微调以及零样本分类任务中均表现优异,在GTZAN数据集上取得了75.17%的最新SOTA(State-of-the-Art)准确率,成功实现了通用型音频-语言表示。

代码仓库

nttcslab/m2d
官方
pytorch
GitHub 中提及
nttcslab/eval-audio-repr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audiosetM2D-CLAP/0.7
Test mAP: 0.485
audio-classification-on-esc-50M2D-CLAP/0.7
Accuracy (5-fold): 97.4
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 97.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
M2D-CLAP:掩码建模双通道融合CLAP以学习通用音频-语言表征 | 论文 | HyperAI超神经