
摘要
视频大模态模型(LMMs)的发展一直受到从网络中收集大量高质量原始数据难度的阻碍。为了解决这一问题,我们提出了一种替代方法,即创建一个专门用于视频指令跟随的高质量合成数据集——LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问答(QA)和选择题问答等关键任务。通过在该数据集上进行训练,并结合现有的视觉指令调优数据,我们引入了新的视频LMM——LLaVA-Video。实验结果表明,LLaVA-Video在各种视频基准测试中表现出色,突显了我们数据集的有效性。我们计划发布该数据集、其生成管道以及模型检查点。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-next-qa | LLaVA-Video | Accuracy: 83.2 |
| video-question-answering-on-tvbench | LLaVA-Video 7B | Average Accuracy: 45.6 |
| video-question-answering-on-tvbench | LLaVA-Video 72B | Average Accuracy: 50.0 |
| visual-question-answering-vqa-on-vlm2-bench | LLaVA-Video-7B | Average Score on VLM2-bench (9 subtasks): 43.32 GC-mat: 18.53 GC-trk: 12.79 OC-cnt: 62.47 OC-cpr: 54.72 OC-grp: 28.50 PC-VID: 59.00 PC-cnt: 66.91 PC-cpr: 62.00 PC-grp: 25.00 |
| zero-shot-video-question-answer-on-zero-shot | LLaVA-Video | Accuracy (% ): 61.9 |