8 个月前

计算机视觉

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

摘要

大型语言模型（LLMs）已经展现出卓越的文本理解能力，这些能力已被扩展到视频语言模型中，以处理视频数据并理解视觉细节。然而，现有的视频语言模型只能提供整个视频的粗略描述，无法捕捉特定事件的确切起始和结束时间边界。在本文中，我们通过提出VTimeLLM解决这一问题，这是一种新型的视频语言模型，旨在实现对视频时刻的细粒度理解和推理，特别是在时间边界方面。具体而言，我们的VTimeLLM采用了分阶段的边界感知训练策略，分别利用图像-文本对进行特征对齐、多事件视频增加时间边界意识以及高质量的视频指令调优进一步提升时间理解能力并使模型与人类意图保持一致。大量实验表明，在涉及视频的时间相关细粒度理解任务中，如时间定位和密集视频字幕生成，VTimeLLM显著优于现有的视频语言模型。此外，得益于其对视频时间边界的细粒度理解能力，VTimeLLM在视频对话基准测试中也超越了现有视频语言模型，展示了其出色的跨模态理解和推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

摘要

大型语言模型（LLMs）已经展现出卓越的文本理解能力，这些能力已被扩展到视频语言模型中，以处理视频数据并理解视觉细节。然而，现有的视频语言模型只能提供整个视频的粗略描述，无法捕捉特定事件的确切起始和结束时间边界。在本文中，我们通过提出VTimeLLM解决这一问题，这是一种新型的视频语言模型，旨在实现对视频时刻的细粒度理解和推理，特别是在时间边界方面。具体而言，我们的VTimeLLM采用了分阶段的边界感知训练策略，分别利用图像-文本对进行特征对齐、多事件视频增加时间边界意识以及高质量的视频指令调优进一步提升时间理解能力并使模型与人类意图保持一致。大量实验表明，在涉及视频的时间相关细粒度理解任务中，如时间定位和密集视频字幕生成，VTimeLLM显著优于现有的视频语言模型。此外，得益于其对视频时间边界的细粒度理解能力，VTimeLLM在视频对话基准测试中也超越了现有视频语言模型，展示了其出色的跨模态理解和推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供