
摘要
视频大语言模型(Vid-LLMs)在理解和回答视频内容方面取得了显著进展。然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上仍面临挑战,这类任务被称为视频时间定位(VTG)。为了解决这一问题,我们引入了数字提示(Number-Prompt,简称NumPro),这是一种新颖的方法,通过为每个视频帧添加唯一的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画面板。这使得Vid-LLMs能够“阅读”事件的时间线,准确地将视觉内容与其对应的时间信息联系起来。我们的实验表明,NumPro能够在不增加额外计算成本的情况下显著提升顶级Vid-LLMs的VTG性能。此外,在经过NumPro增强的数据集上进行微调定义了VTG的新最先进水平,在时刻检索的mIoU指标上超越了之前的最佳方法高达6.9%,在高光检测的mAP指标上则提升了8.5%。代码将在https://github.com/yongliang-wu/NumPro提供。
代码仓库
yongliang-wu/numpro
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | NumPro | Hit@1: 70.71 mAP: 40.54 |