4 个月前

对比学习通用音频表示

对比学习通用音频表示

摘要

我们介绍了COLA(Contrastive Learning for Audio),这是一种用于学习音频通用表示的自监督预训练方法。该方法基于对比学习:它学习一种表示,使得从同一录音中提取的音频片段具有较高的相似度,而来自不同录音的片段则具有较低的相似度。我们在计算机视觉和强化学习领域的最新对比学习进展基础上,设计了一种轻量级且易于实现的音频自监督模型。我们在大规模Audioset数据库上预训练嵌入向量,并将这些表示迁移到9个不同的分类任务中,包括语音、音乐、动物声音和声学场景。实验结果表明,尽管该方法简单,但其性能显著优于之前的自监督系统。此外,我们还进行了消融研究以识别关键的设计选择,并发布了一个库来预训练和微调COLA模型。

基准测试

基准方法指标
speaker-identification-on-voxceleb1COLA
Accuracy: 37.7
Top-1 (%): 37.7
spoken-command-recognition-on-speech-commandCOLA
Accuracy: 95.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对比学习通用音频表示 | 论文 | HyperAI超神经