
摘要
过去一年,基于视频的大规模语言模型取得了显著进展。然而,开发一个能够同时处理短视频和长视频的统一模型仍然是一个未解决的挑战。现有的大多数视频大语言模型(LLM)无法处理长达数小时的视频,而专门为长视频设计的方法在处理较短的视频和图像时往往效果不佳。本文中,我们将关键问题归结为视频中的冗余内容。为了解决这一问题,我们提出了一种新颖的池化策略,该策略能够同时实现令牌压缩和指令感知的视觉特征聚合。我们的模型被称为提示引导池化 LLaVA(Prompt-guided Pooling LLaVA),简称 PPLLaVA。具体而言,PPLLaVA 包含三个核心组件:基于 CLIP 的视觉提示对齐模块,用于提取与用户指令相关的视觉信息;提示引导池化模块,通过卷积风格的池化方法将视觉序列压缩到任意尺度;以及针对视觉对话中常见的长提示设计的片段上下文扩展模块。此外,我们的代码库还集成了最先进的视频直接偏好优化(Direct Preference Optimization, DPO)和视觉交错训练技术。大量的实验验证了我们模型的性能。PPLLaVA 在仅使用 1024 个视觉上下文的情况下,不仅在图像基准测试中作为视频 LLM 取得了更好的结果,还在各种视频基准测试中达到了最先进的水平,在从字幕生成到多项选择题等一系列任务中表现出色,并且能够处理从几秒到几小时长度不等的视频。代码已发布在 https://github.com/farewellthree/PPLLaVA。
代码仓库
farewellthree/ppllava
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-based-generative-performance | PPLLaVA-7B | Consistency: 3.20 Contextual Understanding: 3.88 Correctness of Information: 3.32 Detail Orientation: 3.20 Temporal Understanding: 3.0 mean: 3.32 |
| video-based-generative-performance | PPLLaVA-7B-dpo | Consistency: 3.81 Contextual Understanding: 4.21 Correctness of Information: 3.85 Detail Orientation: 3.56 Temporal Understanding: 3.21 mean: 3.73 |
| video-based-generative-performance-1 | PPLLaVA-7B | gpt-score: 3.85 |
| video-based-generative-performance-2 | PPLLaVA-7B | gpt-score: 3.81 |
| video-based-generative-performance-3 | PPLLaVA-7B | gpt-score: 4.21 |
| video-based-generative-performance-4 | PPLLaVA-7B | gpt-score: 3.56 |
| video-based-generative-performance-5 | PPLLaVA-7B | gpt-score: 3.21 |
| video-question-answering-on-mvbench | PPLLaVA (7b) | Avg.: 59.2 |
| zeroshot-video-question-answer-on-activitynet | PPLLaVA-7B | Accuracy: 60.7 Confidence Score: 3.6 |
| zeroshot-video-question-answer-on-msrvtt-qa | PPLLaVA-7B | Accuracy: 64.3 Confidence Score: 3.5 |
| zeroshot-video-question-answer-on-msvd-qa | PPLLaVA-7B | Accuracy: 77.1 Confidence Score: 4.0 |