4 个月前

社会织体:用于视频关系检测的管状结构组合

社会织体:用于视频关系检测的管状结构组合

摘要

本文致力于对视频中出现的对象管状体之间的关系进行分类和检测,将其表示为<主语-谓语-宾语>三元组。现有的研究通常将对象建议框或管状体视为单一实体,并在其后建模它们的关系,而我们提出了一种方法,即在先验阶段对对象管状体对的谓语进行分类和检测。此外,我们还提出了社会织物(Social Fabric):一种编码方式,可以将一对对象管状体表示为交互基元的组合。这些基元是在所有关系上学习得到的,从而形成了一种紧凑的表示方法,能够在视频的所有时间跨度内从共现的对象管状体池中定位和分类关系。该编码使得我们的两阶段网络成为可能。在第一阶段,我们训练社会织物以建议可能相互作用的提案。在第二阶段,我们利用社会织物同时微调并预测管状体的谓语标签。实验结果表明,早期视频关系建模、我们的编码方法以及两阶段架构均具有显著优势,并在两个基准测试中达到了新的最先进水平。我们还展示了如何通过查询基元示例来搜索时空视频关系。代码:https://github.com/shanshuo/Social-Fabric。

代码仓库

基准测试

基准方法指标
video-visual-relation-detection-on-imagenetSocial Fabric
Recall@100: 16.88
Recall@50: 13.73
mAP: 20.08
video-visual-relation-detection-on-vidorSocial Fabric
Recall@100: 11.94
Recall@50: 9.99
mAP: 11.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
社会织体:用于视频关系检测的管状结构组合 | 论文 | HyperAI超神经