4 个月前

AudioCLIP:扩展CLIP至图像、文本和音频

AudioCLIP:扩展CLIP至图像、文本和音频

摘要

在过去,快速发展的声音分类领域从其他领域的方法应用中受益匪浅。如今,我们观察到一种趋势,即将特定领域的任务和方法融合在一起,这为社区提供了新的杰出模型。在本研究中,我们提出了一种扩展的CLIP模型,该模型除了处理文本和图像外,还能够处理音频。我们提出的模型通过使用AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使得所提出的模型能够在保持CLIP零样本推理能力的同时,执行双模态和单模态分类及查询任务。AudioCLIP在环境声音分类(ESC)任务中取得了新的最先进成果,在UrbanSound8K数据集上达到了90.07%的准确率,在ESC-50数据集上达到了97.15%的准确率,超过了其他方法的表现。此外,它还在同一数据集上的零样本ESC任务中设定了新的基准(分别为68.78%和69.40%)。最后,我们还评估了所提出的模型在跨模态查询方面的性能以及全训练和部分训练对结果的影响。为了便于复现,我们的代码已公开发布。

代码仓库

AndreyGuzhov/AudioCLIP
官方
pytorch
GitHub 中提及
iver56/audiomentations
pytorch
GitHub 中提及

基准测试

基准方法指标
environmental-sound-classification-onAudioCLIP
Accuracy: 90.07
environmental-sound-classification-on-esc-50AudioCLIP
Accuracy: 97.15

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AudioCLIP:扩展CLIP至图像、文本和音频 | 论文 | HyperAI超神经