
摘要
大型视觉-语言模型(LVLM)在视觉-语言理解的各种下游任务中提升了性能。现有的大多数方法将图像和视频编码到不同的特征空间中,然后作为输入提供给大型语言模型(LLM)。然而,由于缺乏对图像和视频的统一标记化,即投影前的错位问题,使得LLM难以从多个质量较差的投影层中学习多模态交互。在这项工作中,我们将视觉表示统一到语言特征空间中,以推动基础LLM向统一的LVLM发展。因此,我们建立了一个简单但稳健的LVLM基线模型——Video-LLaVA,该模型从包含图像和视频的混合数据集中学习,相互增强彼此的表现。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试上取得了优异的成绩。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet四个数据集上的表现分别优于Video-ChatGPT 5.8%、9.9%、18.6%和10.1%。值得注意的是,广泛的实验表明,Video-LLaVA通过统一的视觉表示,在图像和视频之间实现了相互促进的效果,其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为LLM的多模态输入提供一些有益的见解。代码地址:\href{https://github.com/PKU-YuanGroup/Video-LLaVA}
代码仓库
pku-yuangroup/video-bench
GitHub 中提及
PKU-YuanGroup/MoE-LLaVA
pytorch
GitHub 中提及
qiujihao19/artemis
pytorch
GitHub 中提及
pku-yuangroup/languagebind
pytorch
GitHub 中提及
PKU-YuanGroup/Video-LLaVA
官方
pytorch
GitHub 中提及
PKU-YuanGroup/LLMBind
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-relation-extraction-on-vinoground | Video-LLaVA-7B | Group Score: 6.6 Text Score: 24.8 Video Score: 25.8 |
| video-question-answering-on-activitynet-qa | Video-LLaVA | Accuracy: 45.3 Confidence score: 3.3 |
| visual-question-answering-on-mm-vet | Video-LLaVA | GPT-4 score: 32.0 |
| zeroshot-video-question-answer-on-activitynet | Video-LLaVA | Accuracy: 45.3 Confidence Score: 3.3 |
| zeroshot-video-question-answer-on-msrvtt-qa | Video-LLaVA-7B | Accuracy: 59.2 Confidence Score: 3.5 |
| zeroshot-video-question-answer-on-msvd-qa | Video-LLaVA-7B | Accuracy: 70.7 Confidence Score: 3.9 |
| zeroshot-video-question-answer-on-tgif-qa | Video-LLaVA-7B | Accuracy: 70.0 Confidence Score: 4.0 |