4 个月前

VTG-GPT:无需调参的零样本视频时间定位模型

VTG-GPT:无需调参的零样本视频时间定位模型

摘要

视频时间定位(VTG)旨在根据语言查询从未经剪辑的视频中定位特定的时间段。现有的大多数VTG模型都是在大量注释的视频-文本对上进行训练的,这一过程不仅引入了来自查询的人类偏见,还带来了巨大的计算成本。为了解决这些挑战,我们提出了一种基于GPT的方法——VTG-GPT,该方法无需训练或微调即可实现零样本VTG。为了减少原始查询中的偏见,我们采用了Baichuan2生成去偏见化的查询。为了减少视频中的冗余信息,我们应用MiniGPT-v2将视觉内容转换为更精确的字幕。最后,我们设计了提案生成器和后处理模块,以从去偏见化的查询和图像字幕中生成准确的时间段。大量的实验表明,VTG-GPT在零样本设置下显著优于现有方法,并且超过了无监督方法。更值得注意的是,其性能与有监督方法相当具有竞争力。代码已发布在https://github.com/YoucanBaby/VTG-GPT

代码仓库

YoucanBaby/VTG-GPT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-moment-retrieval-on-qvhighlightsVTG-GPT
R1@0.5: 54.26
R1@0.7: 38.45
mAP: 30.91
mAP@0.5: 54.17
mAP@0.75: 29.73

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VTG-GPT:无需调参的零样本视频时间定位模型 | 论文 | HyperAI超神经