8 个月前

摘要

我们研究了从自然语言查询中进行视频定位的问题。该任务的关键挑战在于，一个训练视频可能只包含少数几个可用于模型训练的标注起始/结束帧。大多数传统方法直接使用这种不平衡数据训练二分类器，因此导致结果较差。本文的核心思想是利用视频片段内各帧与真实起始（结束）帧之间的距离作为密集监督信号，以提高视频定位的准确性。具体而言，我们设计了一种新颖的密集回归网络（Dense Regression Network, DRN），用于回归每个帧到由查询描述的视频片段起始（结束）帧的距离。此外，我们还提出了一种简单而有效的交并比（Intersection over Union, IoU）回归头模块，显式考虑了定位结果的质量（即预测位置与真实位置之间的IoU）。实验结果表明，我们的方法在三个数据集上显著优于现有最佳方法（即Charades-STA、ActivityNet-Captions和TACoS）。

源 PDF