
摘要
多模态大语言模型(MLLMs)在视觉感知、理解和推理方面得到了广泛应用。然而,由于大语言模型(LLMs)的上下文容量有限以及粗略的帧提取,长时间视频处理和精确时刻检索仍然面临挑战。我们提出了一种用于时刻检索的大语言与视觉助手(LLaVA-MR),该方法利用MLLMs实现了视频中的准确时刻检索和上下文定位。LLaVA-MR结合了密集帧与时编码(DFTE)进行时空特征提取,信息帧选择(IFS)捕捉短暂的视觉和运动模式,以及动态令牌压缩(DTC)来管理LLM的上下文限制。在Charades-STA和QVHighlights等基准测试上的评估表明,LLaVA-MR超越了11种最先进的方法,在QVHighlights数据集上R1@0.5提高了1.82%,mAP@0.5提高了1.29%。我们的实现将在被接受后开源。
代码仓库
swordlidev/LLaVA-MR
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| moment-retrieval-on-charades-sta | LLaVA-MR | R@1 IoU=0.5: 70.65 R@1 IoU=0.7: 49.58 |
| moment-retrieval-on-qvhighlights | LLaVA-MR | R@1 IoU=0.5: 76.59 R@1 IoU=0.7: 61.48 mAP: 52.73 mAP@0.5: 69.41 mAP@0.75: 54.40 |
| natural-language-moment-retrieval-on | LLaVA-MR | R@1,IoU=0.5: 55.16 R@1,IoU=0.7: 35.68 |