4 个月前

Video-LLaVA:通过对齐前投影学习统一的视觉表示

Video-LLaVA:通过对齐前投影学习统一的视觉表示

摘要

大型视觉-语言模型(LVLM)在视觉-语言理解的各种下游任务中提升了性能。现有的大多数方法将图像和视频编码到不同的特征空间中,然后作为输入提供给大型语言模型(LLM)。然而,由于缺乏对图像和视频的统一标记化,即投影前的错位问题,使得LLM难以从多个质量较差的投影层中学习多模态交互。在这项工作中,我们将视觉表示统一到语言特征空间中,以推动基础LLM向统一的LVLM发展。因此,我们建立了一个简单但稳健的LVLM基线模型——Video-LLaVA,该模型从包含图像和视频的混合数据集中学习,相互增强彼此的表现。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试上取得了优异的成绩。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet四个数据集上的表现分别优于Video-ChatGPT 5.8%、9.9%、18.6%和10.1%。值得注意的是,广泛的实验表明,Video-LLaVA通过统一的视觉表示,在图像和视频之间实现了相互促进的效果,其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为LLM的多模态输入提供一些有益的见解。代码地址:\href{https://github.com/PKU-YuanGroup/Video-LLaVA}

代码仓库

PKU-YuanGroup/MoE-LLaVA
pytorch
GitHub 中提及
qiujihao19/artemis
pytorch
GitHub 中提及
pku-yuangroup/languagebind
pytorch
GitHub 中提及
PKU-YuanGroup/Video-LLaVA
官方
pytorch
GitHub 中提及
PKU-YuanGroup/LLMBind
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundVideo-LLaVA-7B
Group Score: 6.6
Text Score: 24.8
Video Score: 25.8
video-question-answering-on-activitynet-qaVideo-LLaVA
Accuracy: 45.3
Confidence score: 3.3
visual-question-answering-on-mm-vetVideo-LLaVA
GPT-4 score: 32.0
zeroshot-video-question-answer-on-activitynetVideo-LLaVA
Accuracy: 45.3
Confidence Score: 3.3
zeroshot-video-question-answer-on-msrvtt-qaVideo-LLaVA-7B
Accuracy: 59.2
Confidence Score: 3.5
zeroshot-video-question-answer-on-msvd-qaVideo-LLaVA-7B
Accuracy: 70.7
Confidence Score: 3.9
zeroshot-video-question-answer-on-tgif-qaVideo-LLaVA-7B
Accuracy: 70.0
Confidence Score: 4.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Video-LLaVA:通过对齐前投影学习统一的视觉表示 | 论文 | HyperAI超神经