4 个月前

掩码建模双子星:迈向通用音频预训练框架

掩码建模双子星:迈向通用音频预训练框架

摘要

利用掩码预测的自监督学习(Self-Supervised Learning, SSL)在通用音频表示方面取得了显著进展。本研究提出了一种改进的掩码预测SSL方法——Masked Modeling Duo(M2D),该方法通过预测被掩码输入信号的表示来作为训练信号进行学习。与传统方法不同,M2D仅对被掩码部分进行编码以获得训练信号,从而促使M2D中的两个网络更好地建模输入信号。尽管M2D在提升通用音频表示方面表现出色,但在实际应用中,如工业和医疗领域,专门化的表示仍然至关重要。这些领域的数据通常具有保密性和专有性,且数据量有限,分布与预训练数据集中的数据不同。因此,我们提出了针对特定应用X的Masked Modeling Duo扩展版(M2D for X, M2D-X),该方法扩展了M2D,以实现为特定应用X预训练专门化表示的能力。M2D-X不仅从M2D中学习,还引入了一个额外的任务和背景噪声作为输入。我们设计了这个额外任务以适应多种应用场景,而背景噪声则有助于在小规模数据上进行学习,并形成一个去噪任务,使表示更加鲁棒。通过这些设计选择,M2D-X 应能够学习到适用于各种应用需求的专门化表示。我们的实验结果证实,在通用音频、高度竞争的AudioSet和语音领域以及小规模医疗任务中所学到的表示均达到了顶级性能,展示了将我们的模型用作通用音频预训练框架的潜力。我们的代码已在线提供,供未来研究使用,网址为 https://github.com/nttcslab/m2d。

代码仓库

nttcslab/m2d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audio-setM2D-AS/0.7
Mean AP: 48.5
audio-classification-on-audiosetM2D-AS/0.7
Test mAP: 0.485
audio-classification-on-audiosetM2D/0.7
Test mAP: 0.479
audio-classification-on-esc-50M2D/0.7
Accuracy (5-fold): 96.0
Top-1 Accuracy: 96.0
audio-classification-on-esc-50M2D-AS/0.7
Accuracy (5-fold): 97.2
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 97.2
audio-classification-on-icbhi-respiratoryM2D/0.7 (e=0.3)
ICBHI Score: 62.73
speaker-identification-on-voxceleb1M2D/0.6
Accuracy: 96.5
Top-1 (%): 96.5
speaker-identification-on-voxceleb1MSM-MAE
Accuracy: 96.6
Top-1 (%): 96.6
speaker-identification-on-voxceleb1M2D/0.7
Accuracy: 96.3
Top-1 (%): 96.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
掩码建模双子星:迈向通用音频预训练框架 | 论文 | HyperAI超神经