4 个月前

视频-RAG:视觉对齐的检索增强长视频理解

视频-RAG:视觉对齐的检索增强长视频理解

摘要

现有的大规模视频-语言模型(LVLMs)由于上下文有限,难以正确理解长视频。为了解决这一问题,微调长上下文的LVLMs和使用基于GPT的代理已成为有前景的解决方案。然而,微调LVLMs需要大量的高质量数据和大量的GPU资源,而基于GPT的代理则依赖于专有模型(例如GPT-4o)。在本文中,我们提出了一种无需训练且成本效益高的方法——视频检索增强生成(Video-RAG),该方法利用视觉对齐的辅助文本来促进跨模态对齐,并提供超出视觉内容的额外信息。具体而言,我们利用开源外部工具从纯视频数据中提取视觉对齐的信息(例如音频、光学字符和物体检测),并将这些提取的信息以即插即用的方式整合到现有的LVLM中,与视频帧和查询一同使用。我们的Video-RAG具有以下几个关键优势:(i) 由于单轮检索,计算开销较低;(ii) 实现简单且与任何LVLM兼容;(iii) 在长视频理解基准测试中表现出显著且一致的性能提升,包括Video-MME、MLVU和LongVideoBench。值得注意的是,当与720亿参数模型结合时,我们的模型在性能上超过了诸如Gemini-1.5-Pro和GPT-4o等专有模型。

代码仓库

leon1207/video-rag-master
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-video-question-answer-on-egoschema-1Video-RAG (Based on LLaVA-Video)
Accuracy: 66.7
zero-shot-video-question-answer-on-video-mmeVideo-RAG (based on LLaVA-Video)
Accuracy (%): 77.4
zero-shot-video-question-answer-on-video-mme-1Video-RAG (Based on LLaVA-Video)
Accuracy (%): 77.4
zero-shot-video-question-answer-on-zero-shotVideo-RAG (based on LLaVA-Video)
Accuracy (% ): 65.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供