
摘要
大型语言模型(LLMs)在从长文本中检索信息方面表现出色,但其视觉-语言模型(VLMs)在处理长达数小时的视频时面临困难,尤其是在时间定位方面。具体而言,这些VLMs受到帧数限制的影响,常常丢失用于准确定位事件所需的关键时间细节。我们提出了一种递归视觉-语言模型——ReVisionLLM,该模型旨在定位长达数小时的视频中的事件。受人类搜索策略的启发,我们的模型首先瞄准广泛的感兴趣段落,逐步调整其关注点以精确锁定时间边界。该模型可以无缝处理长度差异极大的视频,从几分钟到几小时不等。我们还引入了一种分层训练策略,从短片段开始捕捉不同事件,并逐渐扩展到更长的视频。据我们所知,ReVisionLLM是首个能够在长达数小时的视频中进行时间定位的VLM,在多个数据集上的表现显著优于先前的最先进方法(在MAD数据集上R1@0.1指标提高了2.6%)。代码已发布在 https://github.com/Tanveer81/ReVisionLLM。
代码仓库
tanveer81/revisionllm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-based-temporal-localization-on | ReVisionLLM | R1@.9: 15.2 |
| natural-language-moment-retrieval-on-mad | ReVisionLLM | R@1,IoU=0.1: 17.3 R@1,IoU=0.3: 12.7 R@1,IoU=0.5: 6.7 |