8 个月前

摘要

视频时间定位（VTG）旨在根据语言查询从未经剪辑的视频中定位特定的时间段。现有的大多数VTG模型都是在大量注释的视频-文本对上进行训练的，这一过程不仅引入了来自查询的人类偏见，还带来了巨大的计算成本。为了解决这些挑战，我们提出了一种基于GPT的方法——VTG-GPT，该方法无需训练或微调即可实现零样本VTG。为了减少原始查询中的偏见，我们采用了Baichuan2生成去偏见化的查询。为了减少视频中的冗余信息，我们应用MiniGPT-v2将视觉内容转换为更精确的字幕。最后，我们设计了提案生成器和后处理模块，以从去偏见化的查询和图像字幕中生成准确的时间段。大量的实验表明，VTG-GPT在零样本设置下显著优于现有方法，并且超过了无监督方法。更值得注意的是，其性能与有监督方法相当具有竞争力。代码已发布在https://github.com/YoucanBaby/VTG-GPT

源 PDF