4 个月前

VTimeLLM:使大型语言模型掌握视频时刻

VTimeLLM:使大型语言模型掌握视频时刻

摘要

大型语言模型(LLMs)已经展现出卓越的文本理解能力,这些能力已被扩展到视频语言模型中,以处理视频数据并理解视觉细节。然而,现有的视频语言模型只能提供整个视频的粗略描述,无法捕捉特定事件的确切起始和结束时间边界。在本文中,我们通过提出VTimeLLM解决这一问题,这是一种新型的视频语言模型,旨在实现对视频时刻的细粒度理解和推理,特别是在时间边界方面。具体而言,我们的VTimeLLM采用了分阶段的边界感知训练策略,分别利用图像-文本对进行特征对齐、多事件视频增加时间边界意识以及高质量的视频指令调优进一步提升时间理解能力并使模型与人类意图保持一致。大量实验表明,在涉及视频的时间相关细粒度理解任务中,如时间定位和密集视频字幕生成,VTimeLLM显著优于现有的视频语言模型。此外,得益于其对视频时间边界的细粒度理解能力,VTimeLLM在视频对话基准测试中也超越了现有视频语言模型,展示了其出色的跨模态理解和推理能力。

代码仓库

huangb23/vtimellm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dense-video-captioning-on-activitynetVTimeLLM
CIDEr: 27.6
SODA: 5.8
temporal-relation-extraction-on-vinogroundVTimeLLM
Group Score: 5.2
Text Score: 19.4
Video Score: 27
vcgbench-diverse-on-videoinstructVTimeLLM
Consistency: 2.35
Contextual Understanding: 2.48
Correctness of Information: 2.16
Dense Captioning: 1.13
Detail Orientation: 2.41
Reasoning: 3.45
Spatial Understanding: 2.29
Temporal Understanding: 1.46
mean: 2.17
video-based-generative-performanceVTimeLLM
Consistency: 2.47
Contextual Understanding: 3.40
Correctness of Information: 2.78
Detail Orientation: 3.10
Temporal Understanding: 2.49
mean: 2.85
video-based-generative-performance-1VTimeLLM
gpt-score: 2.78
video-based-generative-performance-2VTimeLLM
gpt-score: 2.47
video-based-generative-performance-3VTimeLLM
gpt-score: 3.40
video-based-generative-performance-4VTimeLLM
gpt-score: 3.10
video-based-generative-performance-5VTimeLLM
gpt-score: 2.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VTimeLLM:使大型语言模型掌握视频时刻 | 论文 | HyperAI超神经