8 个月前

多模态表征

计算机视觉

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

摘要

我们介绍了DenseAV，一种新颖的双编码器定位架构，该架构仅通过观看视频即可学习高分辨率、语义丰富且音视频对齐的特征。研究表明，DenseAV能够在没有显式定位监督的情况下发现词语的“含义”和声音的“位置”。此外，它还能自动识别并区分这两种关联类型而无需监督。我们展示了DenseAV的定位能力源自一种新的多头特征聚合算子，该算子直接对比密集图像和音频表示以进行对比学习。相比之下，许多其他学习“全局”音视频表示的系统无法定位词语和声音。最后，我们贡献了两个新数据集，以通过语音和声音提示的语义分割来改进AV表示的评估。在这些及其他数据集上，我们证明DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在跨模态检索中使用的参数少于ImageBind的一半，但仍大幅超越了此前的最佳水平。项目页面：https://aka.ms/denseav

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

摘要

我们介绍了DenseAV，一种新颖的双编码器定位架构，该架构仅通过观看视频即可学习高分辨率、语义丰富且音视频对齐的特征。研究表明，DenseAV能够在没有显式定位监督的情况下发现词语的“含义”和声音的“位置”。此外，它还能自动识别并区分这两种关联类型而无需监督。我们展示了DenseAV的定位能力源自一种新的多头特征聚合算子，该算子直接对比密集图像和音频表示以进行对比学习。相比之下，许多其他学习“全局”音视频表示的系统无法定位词语和声音。最后，我们贡献了两个新数据集，以通过语音和声音提示的语义分割来改进AV表示的评估。在这些及其他数据集上，我们证明DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在跨模态检索中使用的参数少于ImageBind的一半，但仍大幅超越了此前的最佳水平。项目页面：https://aka.ms/denseav

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供