4 个月前

LLaVA-MR:用于视频片段检索的大规模语言与视觉助手

LLaVA-MR:用于视频片段检索的大规模语言与视觉助手

摘要

多模态大语言模型(MLLMs)在视觉感知、理解和推理方面得到了广泛应用。然而,由于大语言模型(LLMs)的上下文容量有限以及粗略的帧提取,长时间视频处理和精确时刻检索仍然面临挑战。我们提出了一种用于时刻检索的大语言与视觉助手(LLaVA-MR),该方法利用MLLMs实现了视频中的准确时刻检索和上下文定位。LLaVA-MR结合了密集帧与时编码(DFTE)进行时空特征提取,信息帧选择(IFS)捕捉短暂的视觉和运动模式,以及动态令牌压缩(DTC)来管理LLM的上下文限制。在Charades-STA和QVHighlights等基准测试上的评估表明,LLaVA-MR超越了11种最先进的方法,在QVHighlights数据集上R1@0.5提高了1.82%,mAP@0.5提高了1.29%。我们的实现将在被接受后开源。

代码仓库

swordlidev/LLaVA-MR
官方
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-charades-staLLaVA-MR
R@1 IoU=0.5: 70.65
R@1 IoU=0.7: 49.58
moment-retrieval-on-qvhighlightsLLaVA-MR
R@1 IoU=0.5: 76.59
R@1 IoU=0.7: 61.48
mAP: 52.73
mAP@0.5: 69.41
mAP@0.75: 54.40
natural-language-moment-retrieval-onLLaVA-MR
R@1,IoU=0.5: 55.16
R@1,IoU=0.7: 35.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLaVA-MR:用于视频片段检索的大规模语言与视觉助手 | 论文 | HyperAI超神经