4 个月前

分离“啁啾”与“聊天”:自监督声音和语言的视觉定位

分离“啁啾”与“聊天”:自监督声音和语言的视觉定位

摘要

我们介绍了DenseAV,一种新颖的双编码器定位架构,该架构仅通过观看视频即可学习高分辨率、语义丰富且音视频对齐的特征。研究表明,DenseAV能够在没有显式定位监督的情况下发现词语的“含义”和声音的“位置”。此外,它还能自动识别并区分这两种关联类型而无需监督。我们展示了DenseAV的定位能力源自一种新的多头特征聚合算子,该算子直接对比密集图像和音频表示以进行对比学习。相比之下,许多其他学习“全局”音视频表示的系统无法定位词语和声音。最后,我们贡献了两个新数据集,以通过语音和声音提示的语义分割来改进AV表示的评估。在这些及其他数据集上,我们证明DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在跨模态检索中使用的参数少于ImageBind的一半,但仍大幅超越了此前的最佳水平。项目页面:https://aka.ms/denseav

代码仓库

mhamilton723/DenseAV
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sound-prompted-semantic-segmentation-onDenseAV
mAP: 32.7
mIoU: 24.7
speech-prompted-semantic-segmentation-onDenseAV
mAP: 48.7
mIoU: 36.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分离“啁啾”与“聊天”:自监督声音和语言的视觉定位 | 论文 | HyperAI超神经