
摘要
识别物体之间的关系对于理解场景至关重要。尽管在图像领域已经提出了多种关系建模的方法,但由于时空交互(例如,哪些物体之间存在交互?关系何时开始和结束?)的复杂动态特性,视频领域的研究仍面临诸多限制。迄今为止,为了解决视频视觉关系检测(VidVRD)问题,已提出两种代表性方法:基于片段的方法和基于窗口的方法。我们首先指出了这些方法的局限性,并提出了一种新的方法——时间跨度提议网络(Temporal Span Proposal Network, TSPN)。TSPN 能够指示“看什么”:通过评估物体对的关系性得分来稀疏化关系搜索空间,即测量两个物体之间存在关系的可能性。TSPN 还能指示“何时看”:利用完整的视频上下文同时预测所有可能关系的起始和结束时间戳(即时间跨度)及其类别。这两种设计实现了一个双赢的局面:它将训练速度提高了两倍以上,并在两个 VidVRD 基准测试(ImageNet-VidVRD 和 VidOR)中取得了具有竞争力的性能。此外,全面的消融实验进一步证明了我们方法的有效性。代码可在 https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD 获取。
代码仓库
sangminwoo/Temporal-Span-Proposal-Network-VidVRD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-visual-relation-detection-on-imagenet | TSPN | Recall@100: 14.13 Recall@50: 11.56 mAP: 18.9 |
| video-visual-relation-detection-on-vidor | TSPN | Recall@100: 10.71 Recall@50: 9.33 mAP: 7.61 |