
摘要
我们介绍了LaViLa,这是一种通过利用大型语言模型(LLMs)来学习视频-语言表示的新方法。我们将预训练的大型语言模型重新用于以视觉输入为条件,并对其进行微调以创建自动视频叙述器。我们的自动生成叙述具有多项优势,包括对长视频的密集覆盖、视觉信息与文本更好的时间同步以及更高的文本多样性。通过这些额外的自动生成叙述对比学习得到的视频-文本嵌入在多个第一人称和第三人称视频任务中超越了先前的最先进水平,无论是在零样本设置还是微调设置下。尤为显著的是,LaViLa在EGTEA分类任务上获得了10.1%的绝对提升,在Epic-Kitchens-100多实例检索基准上获得了5.9%的绝对提升。此外,仅使用Ego4D数据集中一半叙述进行训练的LaViLa模型就超过了使用完整数据集训练的基线模型,并且在增加预训练数据量和模型规模时表现出积极的扩展行为。
代码仓库
facebookresearch/lavila
官方
pytorch
GitHub 中提及
Ziyang412/VideoTree
pytorch
GitHub 中提及
ceezh/llovi
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-on-charades-ego | LaViLa (Zero-shot, TimeSformer-L) | mAP: 28.9 |
| action-recognition-on-charades-ego | LaViLa (Finetuned, TimeSformer-L) | mAP: 36.1 |
| action-recognition-on-epic-kitchens-100 | LaViLa (TimeSformer-L) | Action@1: 51 Noun@1: 62.9 Verb@1: 72 |
| egocentric-activity-recognition-on-egtea-1 | LaViLa (Finetuned, TimeSformer-L) | Average Accuracy: 81.75 Mean class accuracy: 76 |