4 个月前

VicTR:基于视频的文本表示用于活动识别

VicTR:基于视频的文本表示用于活动识别

摘要

视觉-语言模型(VLMs)在图像领域表现出色,尤其是在零样本设置下,这得益于大量可用的预训练数据(即配对的图像-文本样本)。然而,对于视频而言,这种配对的数据并不那么丰富。因此,视频-VLMs通常通过将预训练的图像-VLMs适应到视频领域来设计,而不是从头开始训练。所有这些方法都依赖于在视觉嵌入中添加时间信息(即图像 $\rightarrow$ 视频),通常保持文本嵌入不变甚至被丢弃。在本文中,我们提出相反的观点,认为通过更多地增强文本而非视觉信息可以设计出更好的视频-VLMs。具体来说,我们引入了视频条件下的文本表示(VicTR):一种针对视觉嵌入进行优化的文本嵌入形式,从而创建一个更加灵活的对比潜在空间。我们的模型还可以利用自由获取的语义信息,以视觉基础辅助文本的形式出现(例如物体或场景信息)。我们在少样本、零样本(HMDB-51、UCF-101)、短视频(Kinetics-400)和长视频(Charades)活动识别基准上评估了我们的模型,结果显示其在视频-VLMs中具有强大的性能。

基准测试

基准方法指标
action-classification-on-charadesVicTR (ViT-L/14)
MAP: 57.6
action-classification-on-kinetics-400VicTR (ViT-L/14)
Acc@1: 87.0
zero-shot-action-recognition-on-hmdb51VicTR (ViT-B/16)
Top-1 Accuracy: 51.0
zero-shot-action-recognition-on-ucf101VicTR (ViT-B/16)
Top-1 Accuracy: 72.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VicTR:基于视频的文本表示用于活动识别 | 论文 | HyperAI超神经