8 个月前

多模态表征

计算机视觉

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

摘要

视觉-语言模型（VLMs）在图像领域表现出色，尤其是在零样本设置下，这得益于大量可用的预训练数据（即配对的图像-文本样本）。然而，对于视频而言，这种配对的数据并不那么丰富。因此，视频-VLMs通常通过将预训练的图像-VLMs适应到视频领域来设计，而不是从头开始训练。所有这些方法都依赖于在视觉嵌入中添加时间信息（即图像 $\rightarrow$ 视频），通常保持文本嵌入不变甚至被丢弃。在本文中，我们提出相反的观点，认为通过更多地增强文本而非视觉信息可以设计出更好的视频-VLMs。具体来说，我们引入了视频条件下的文本表示（VicTR）：一种针对视觉嵌入进行优化的文本嵌入形式，从而创建一个更加灵活的对比潜在空间。我们的模型还可以利用自由获取的语义信息，以视觉基础辅助文本的形式出现（例如物体或场景信息）。我们在少样本、零样本（HMDB-51、UCF-101）、短视频（Kinetics-400）和长视频（Charades）活动识别基准上评估了我们的模型，结果显示其在视频-VLMs中具有强大的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

摘要

视觉-语言模型（VLMs）在图像领域表现出色，尤其是在零样本设置下，这得益于大量可用的预训练数据（即配对的图像-文本样本）。然而，对于视频而言，这种配对的数据并不那么丰富。因此，视频-VLMs通常通过将预训练的图像-VLMs适应到视频领域来设计，而不是从头开始训练。所有这些方法都依赖于在视觉嵌入中添加时间信息（即图像 $\rightarrow$ 视频），通常保持文本嵌入不变甚至被丢弃。在本文中，我们提出相反的观点，认为通过更多地增强文本而非视觉信息可以设计出更好的视频-VLMs。具体来说，我们引入了视频条件下的文本表示（VicTR）：一种针对视觉嵌入进行优化的文本嵌入形式，从而创建一个更加灵活的对比潜在空间。我们的模型还可以利用自由获取的语义信息，以视觉基础辅助文本的形式出现（例如物体或场景信息）。我们在少样本、零样本（HMDB-51、UCF-101）、短视频（Kinetics-400）和长视频（Charades）活动识别基准上评估了我们的模型，结果显示其在视频-VLMs中具有强大的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供