4 个月前

从大型语言模型中学习视频表示

从大型语言模型中学习视频表示

摘要

我们介绍了LaViLa,这是一种通过利用大型语言模型(LLMs)来学习视频-语言表示的新方法。我们将预训练的大型语言模型重新用于以视觉输入为条件,并对其进行微调以创建自动视频叙述器。我们的自动生成叙述具有多项优势,包括对长视频的密集覆盖、视觉信息与文本更好的时间同步以及更高的文本多样性。通过这些额外的自动生成叙述对比学习得到的视频-文本嵌入在多个第一人称和第三人称视频任务中超越了先前的最先进水平,无论是在零样本设置还是微调设置下。尤为显著的是,LaViLa在EGTEA分类任务上获得了10.1%的绝对提升,在Epic-Kitchens-100多实例检索基准上获得了5.9%的绝对提升。此外,仅使用Ego4D数据集中一半叙述进行训练的LaViLa模型就超过了使用完整数据集训练的基线模型,并且在增加预训练数据量和模型规模时表现出积极的扩展行为。

代码仓库

facebookresearch/lavila
官方
pytorch
GitHub 中提及
Ziyang412/VideoTree
pytorch
GitHub 中提及
ceezh/llovi
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-on-charades-egoLaViLa (Zero-shot, TimeSformer-L)
mAP: 28.9
action-recognition-on-charades-egoLaViLa (Finetuned, TimeSformer-L)
mAP: 36.1
action-recognition-on-epic-kitchens-100LaViLa (TimeSformer-L)
Action@1: 51
Noun@1: 62.9
Verb@1: 72
egocentric-activity-recognition-on-egtea-1LaViLa (Finetuned, TimeSformer-L)
Average Accuracy: 81.75
Mean class accuracy: 76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从大型语言模型中学习视频表示 | 论文 | HyperAI超神经