4 个月前

UnLoc:视频定位任务的统一框架

UnLoc:视频定位任务的统一框架

摘要

虽然大规模图像-文本预训练模型(如CLIP)已被用于修剪视频的多个视频级任务,但它们在未修剪视频的时间定位任务中的应用仍相对较少探索。我们设计了一种新的方法,称为UnLoc,该方法利用预训练的图像和文本塔,并将标记输入到一个视频-文本融合模型中。融合模块的输出随后用于构建特征金字塔,其中每一层都连接到一个头部以预测每帧的相关性分数和起始/结束时间偏移。与以往的工作不同,我们的架构能够在单阶段模型中实现时刻检索、时间定位和动作分割,而无需动作提议、基于运动的预训练特征或表示掩码。与专门化的模型相比,我们通过统一的方法在这三个不同的定位任务上取得了最先进的结果。代码将在以下地址提供:\url{https://github.com/google-research/scenic}。

代码仓库

google-research/scenic
官方
jax
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-coinUnLoc-L
Frame accuracy: 72.8
moment-retrieval-on-charades-staUnLoc-L
R@1 IoU=0.5: 60.8
R@1 IoU=0.7: 38.4
R@5 IoU=0.5: 88.2
R@5 IoU=0.7: 61.1
moment-retrieval-on-charades-staUnLoc-B
R@1 IoU=0.5: 58.1
R@1 IoU=0.7: 35.4
R@5 IoU=0.5: 87.4
R@5 IoU=0.7: 59.1
moment-retrieval-on-qvhighlightsUnLoc-L
R@1 IoU=0.5: 66.1
R@1 IoU=0.7: 46.7
moment-retrieval-on-qvhighlightsUnLoc-B
R@1 IoU=0.5: 64.5
R@1 IoU=0.7: 48.8
natural-language-moment-retrieval-onUnLoc-B
R@1,IoU=0.5: 48.0
R@1,IoU=0.7: 29.7
R@5,IoU=0.5: 81.5
R@5,IoU=0.7: 61.4
natural-language-moment-retrieval-onUnLoc-L
R@1,IoU=0.5: 48.3
R@1,IoU=0.7: 30.2
R@5,IoU=0.5: 79.2
R@5,IoU=0.7: 61.3
temporal-action-localization-on-activitynetUnLoc-L
mAP IOU@0.5: 59.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UnLoc:视频定位任务的统一框架 | 论文 | HyperAI超神经