4 个月前

编号:时间定位视频,如翻转漫画

编号:时间定位视频,如翻转漫画

摘要

视频大语言模型(Vid-LLMs)在理解和回答视频内容方面取得了显著进展。然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上仍面临挑战,这类任务被称为视频时间定位(VTG)。为了解决这一问题,我们引入了数字提示(Number-Prompt,简称NumPro),这是一种新颖的方法,通过为每个视频帧添加唯一的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画面板。这使得Vid-LLMs能够“阅读”事件的时间线,准确地将视觉内容与其对应的时间信息联系起来。我们的实验表明,NumPro能够在不增加额外计算成本的情况下显著提升顶级Vid-LLMs的VTG性能。此外,在经过NumPro增强的数据集上进行微调定义了VTG的新最先进水平,在时刻检索的mIoU指标上超越了之前的最佳方法高达6.9%,在高光检测的mAP指标上则提升了8.5%。代码将在https://github.com/yongliang-wu/NumPro提供。

代码仓库

yongliang-wu/numpro
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-qvhighlightsNumPro
Hit@1: 70.71
mAP: 40.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
编号:时间定位视频,如翻转漫画 | 论文 | HyperAI超神经