
摘要
虽然大规模图像-文本预训练模型(如CLIP)已被用于修剪视频的多个视频级任务,但它们在未修剪视频的时间定位任务中的应用仍相对较少探索。我们设计了一种新的方法,称为UnLoc,该方法利用预训练的图像和文本塔,并将标记输入到一个视频-文本融合模型中。融合模块的输出随后用于构建特征金字塔,其中每一层都连接到一个头部以预测每帧的相关性分数和起始/结束时间偏移。与以往的工作不同,我们的架构能够在单阶段模型中实现时刻检索、时间定位和动作分割,而无需动作提议、基于运动的预训练特征或表示掩码。与专门化的模型相比,我们通过统一的方法在这三个不同的定位任务上取得了最先进的结果。代码将在以下地址提供:\url{https://github.com/google-research/scenic}。
代码仓库
google-research/scenic
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-coin | UnLoc-L | Frame accuracy: 72.8 |
| moment-retrieval-on-charades-sta | UnLoc-L | R@1 IoU=0.5: 60.8 R@1 IoU=0.7: 38.4 R@5 IoU=0.5: 88.2 R@5 IoU=0.7: 61.1 |
| moment-retrieval-on-charades-sta | UnLoc-B | R@1 IoU=0.5: 58.1 R@1 IoU=0.7: 35.4 R@5 IoU=0.5: 87.4 R@5 IoU=0.7: 59.1 |
| moment-retrieval-on-qvhighlights | UnLoc-L | R@1 IoU=0.5: 66.1 R@1 IoU=0.7: 46.7 |
| moment-retrieval-on-qvhighlights | UnLoc-B | R@1 IoU=0.5: 64.5 R@1 IoU=0.7: 48.8 |
| natural-language-moment-retrieval-on | UnLoc-B | R@1,IoU=0.5: 48.0 R@1,IoU=0.7: 29.7 R@5,IoU=0.5: 81.5 R@5,IoU=0.7: 61.4 |
| natural-language-moment-retrieval-on | UnLoc-L | R@1,IoU=0.5: 48.3 R@1,IoU=0.7: 30.2 R@5,IoU=0.5: 79.2 R@5,IoU=0.7: 61.3 |
| temporal-action-localization-on-activitynet | UnLoc-L | mAP IOU@0.5: 59.3 |