4 个月前

SlowFast-LLaVA:视频大语言模型的强无训练基线

SlowFast-LLaVA:视频大语言模型的强无训练基线

摘要

我们提出了一种无需训练的视频大语言模型(LLM),即SlowFast-LLaVA(简称SF-LLaVA),该模型能够在不超出常用LLM令牌预算的情况下,同时捕捉详细的空域语义和长距离的时间上下文。这一目标通过为视频LLM设计双流SlowFast输入来实现,从而以有效的方式聚合采样视频帧的特征。具体而言,慢路径以较低的帧率提取特征,同时尽可能保留更多的空间细节(例如,使用24x24个令牌),而快路径则以较高的帧率运行,但使用更大的空间池化步幅(例如,下采样6倍)来专注于运动线索。因此,这种设计使我们能够充分捕捉对理解视频细节有益的空间和时间特征。实验结果表明,SF-LLaVA在广泛的视频任务上优于现有的无需训练方法。在某些基准测试中,其性能与在视频数据集上微调的最先进视频LLM相当甚至更好。

代码仓库

apple/ml-slowfast-llava
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-based-generative-performanceSlowFast-LLaVA-34B
mean: 3.32
video-based-generative-performance-1SlowFast-LLaVA-34B
gpt-score: 3.48
video-based-generative-performance-2SlowFast-LLaVA-34B
gpt-score: 3.57
video-based-generative-performance-3SlowFast-LLaVA-34B
gpt-score: 3.84
video-based-generative-performance-4SlowFast-LLaVA-34B
gpt-score: 2.96
video-based-generative-performance-5SlowFast-LLaVA-34B
gpt-score: 2.77
zero-shot-video-question-answer-on-egoschemaSlowFast-LLaVA-34B
Accuracy: 47.2
zero-shot-video-question-answer-on-intentqaSlowFast-LLaVA-34B
Accuracy: 60.1
zero-shot-video-question-answer-on-next-qaSlowFast-LLaVA-34B
Accuracy: 64.2
zeroshot-video-question-answer-on-activitynetSlowFast-LLaVA-34B
Accuracy: 59.2
Confidence Score: 3.5
zeroshot-video-question-answer-on-msrvtt-qaSlowFast-LLaVA-34B
Accuracy: 67.4
Confidence Score: 3.7
zeroshot-video-question-answer-on-msvd-qaSlowFast-LLaVA-34B
Accuracy: 79.9
Confidence Score: 4.1
zeroshot-video-question-answer-on-tgif-qaSlowFast-LLaVA-34B
Accuracy: 80.6
Confidence Score: 4.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SlowFast-LLaVA:视频大语言模型的强无训练基线 | 论文 | HyperAI超神经