4 个月前

基于合成数据的视频指令调优

基于合成数据的视频指令调优

摘要

视频大模态模型(LMMs)的发展一直受到从网络中收集大量高质量原始数据难度的阻碍。为了解决这一问题,我们提出了一种替代方法,即创建一个专门用于视频指令跟随的高质量合成数据集——LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问答(QA)和选择题问答等关键任务。通过在该数据集上进行训练,并结合现有的视觉指令调优数据,我们引入了新的视频LMM——LLaVA-Video。实验结果表明,LLaVA-Video在各种视频基准测试中表现出色,突显了我们数据集的有效性。我们计划发布该数据集、其生成管道以及模型检查点。

基准测试

基准方法指标
video-question-answering-on-next-qaLLaVA-Video
Accuracy: 83.2
video-question-answering-on-tvbenchLLaVA-Video 7B
Average Accuracy: 45.6
video-question-answering-on-tvbenchLLaVA-Video 72B
Average Accuracy: 50.0
visual-question-answering-vqa-on-vlm2-benchLLaVA-Video-7B
Average Score on VLM2-bench (9 subtasks): 43.32
GC-mat: 18.53
GC-trk: 12.79
OC-cnt: 62.47
OC-cpr: 54.72
OC-grp: 28.50
PC-VID: 59.00
PC-cnt: 66.91
PC-cpr: 62.00
PC-grp: 25.00
zero-shot-video-question-answer-on-zero-shotLLaVA-Video
Accuracy (% ): 61.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于合成数据的视频指令调优 | 论文 | HyperAI超神经