4 个月前

ST-LLM:大型语言模型是有效的时序学习器

ST-LLM:大型语言模型是有效的时序学习器

摘要

大型语言模型(LLMs)在文本理解和生成方面展示了令人印象深刻的能力,这促使研究人员努力开发视频LLMs,以促进视频层面的人机交互。然而,如何在基于视频的对话系统中有效地编码和理解视频仍然是一个未解决的问题。本文探讨了一个简单但尚未被研究的问题:是否可以将所有时空标记输入到LLM中,从而将视频序列建模的任务委托给LLM?令人惊讶的是,这种简单的做法在视频理解方面带来了显著的改进。基于此,我们提出了ST-LLM,这是一种具有时空序列建模功能的有效视频LLM基线模型。此外,为了解决LLM中未压缩视频标记带来的开销和稳定性问题,我们开发了一种动态掩码策略,并设计了定制的训练目标。对于特别长的视频,我们还设计了一个全局-局部输入模块来平衡效率和效果。因此,我们在保持高效性和稳定性的前提下,利用LLM实现了高效的时空建模。大量的实验结果证明了我们方法的有效性。通过更加简洁的模型和训练流程,ST-LLM在VideoChatGPT-Bench和MVBench上建立了新的最先进水平。代码已发布在https://github.com/TencentARC/ST-LLM。

代码仓库

TencentARC/ST-LLM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-based-generative-performanceST-LLM-7B
Consistency: 2.81
Contextual Understanding: 3.74
Correctness of Information: 3.23
Detail Orientation: 3.05
Temporal Understanding: 2.93
mean: 3.15
video-based-generative-performance-1ST-LLM
gpt-score: 3.23
video-based-generative-performance-2ST-LLM
gpt-score: 2.81
video-based-generative-performance-3ST-LLM
gpt-score: 3.74
video-based-generative-performance-4ST-LLM
gpt-score: 3.05
video-based-generative-performance-5ST-LLM
gpt-score: 2.93
video-question-answering-on-mvbenchST-LLM
Avg.: 54.9
video-question-answering-on-tvbenchST-LLM
Average Accuracy: 35.7
zeroshot-video-question-answer-on-activitynetST-LLM
Accuracy: 50.9
Confidence Score: 3.3
zeroshot-video-question-answer-on-msrvtt-qaST-LLM
Accuracy: 63.2
Confidence Score: 3.4
zeroshot-video-question-answer-on-msvd-qaST-LLM
Accuracy: 74.6
Confidence Score: 3.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ST-LLM:大型语言模型是有效的时序学习器 | 论文 | HyperAI超神经