8 个月前

摘要

多模态大语言模型（MLLMs）在视觉感知、理解和推理方面得到了广泛应用。然而，由于大语言模型（LLMs）的上下文容量有限以及粗略的帧提取，长时间视频处理和精确时刻检索仍然面临挑战。我们提出了一种用于时刻检索的大语言与视觉助手（LLaVA-MR），该方法利用MLLMs实现了视频中的准确时刻检索和上下文定位。LLaVA-MR结合了密集帧与时编码（DFTE）进行时空特征提取，信息帧选择（IFS）捕捉短暂的视觉和运动模式，以及动态令牌压缩（DTC）来管理LLM的上下文限制。在Charades-STA和QVHighlights等基准测试上的评估表明，LLaVA-MR超越了11种最先进的方法，在QVHighlights数据集上R1@0.5提高了1.82%，mAP@0.5提高了1.29%。我们的实现将在被接受后开源。

源 PDF