HyperAIHyperAI

Command Palette

Search for a command to run...

分离“啁啾”与“聊天”:自监督声音和语言的视觉定位

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

摘要

我们介绍了DenseAV,一种新颖的双编码器定位架构,该架构仅通过观看视频即可学习高分辨率、语义丰富且音视频对齐的特征。研究表明,DenseAV能够在没有显式定位监督的情况下发现词语的“含义”和声音的“位置”。此外,它还能自动识别并区分这两种关联类型而无需监督。我们展示了DenseAV的定位能力源自一种新的多头特征聚合算子,该算子直接对比密集图像和音频表示以进行对比学习。相比之下,许多其他学习“全局”音视频表示的系统无法定位词语和声音。最后,我们贡献了两个新数据集,以通过语音和声音提示的语义分割来改进AV表示的评估。在这些及其他数据集上,我们证明DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在跨模态检索中使用的参数少于ImageBind的一半,但仍大幅超越了此前的最佳水平。项目页面:https://aka.ms/denseav


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分离“啁啾”与“聊天”:自监督声音和语言的视觉定位 | 论文 | HyperAI超神经