4 个月前

InternVideo2.5:通过长且丰富的上下文建模增强视频多语言大模型的能力

InternVideo2.5:通过长且丰富的上下文建模增强视频多语言大模型的能力

摘要

本文旨在通过长而丰富的上下文(LRC)建模来提升视频多模态大语言模型(MLLM)的性能。为此,我们开发了InternVideo2.5的新版本,重点在于增强原有MLLM对细粒度细节的感知能力和捕捉视频中长时间结构的能力。具体而言,我们的方法通过直接偏好优化将密集视觉任务注释整合到MLLM中,并通过自适应层次令牌压缩开发紧凑的空间时间表示。实验结果表明,这种独特的LRC设计在主流视频理解基准测试(短时和长时)中显著提升了视频MLLM的表现,使得MLLM能够记住显著更长的视频输入(至少比原版长6倍),并掌握了诸如目标跟踪和分割等专门的视觉能力。我们的工作突显了多模态上下文丰富性(长度和细粒度)在增强MLLM固有能力(专注力和记忆力)方面的重要性,为未来关于视频MLLM的研究提供了新的见解。代码和模型可在https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5 获取。

代码仓库

opengvlab/internvideo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1InternVideo2.5
Ju0026F: 34.2
referring-video-object-segmentation-on-mevisInternVideo2.5
Ju0026F: 32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternVideo2.5:通过长且丰富的上下文建模增强视频多语言大模型的能力 | 论文 | HyperAI超神经