4 个月前

何时观察什么?用于视频关系检测的时序跨度提案网络

何时观察什么?用于视频关系检测的时序跨度提案网络

摘要

识别物体之间的关系对于理解场景至关重要。尽管在图像领域已经提出了多种关系建模的方法,但由于时空交互(例如,哪些物体之间存在交互?关系何时开始和结束?)的复杂动态特性,视频领域的研究仍面临诸多限制。迄今为止,为了解决视频视觉关系检测(VidVRD)问题,已提出两种代表性方法:基于片段的方法和基于窗口的方法。我们首先指出了这些方法的局限性,并提出了一种新的方法——时间跨度提议网络(Temporal Span Proposal Network, TSPN)。TSPN 能够指示“看什么”:通过评估物体对的关系性得分来稀疏化关系搜索空间,即测量两个物体之间存在关系的可能性。TSPN 还能指示“何时看”:利用完整的视频上下文同时预测所有可能关系的起始和结束时间戳(即时间跨度)及其类别。这两种设计实现了一个双赢的局面:它将训练速度提高了两倍以上,并在两个 VidVRD 基准测试(ImageNet-VidVRD 和 VidOR)中取得了具有竞争力的性能。此外,全面的消融实验进一步证明了我们方法的有效性。代码可在 https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD 获取。

代码仓库

基准测试

基准方法指标
video-visual-relation-detection-on-imagenetTSPN
Recall@100: 14.13
Recall@50: 11.56
mAP: 18.9
video-visual-relation-detection-on-vidorTSPN
Recall@100: 10.71
Recall@50: 9.33
mAP: 7.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
何时观察什么?用于视频关系检测的时序跨度提案网络 | 论文 | HyperAI超神经