4 个月前

视觉组合学习在人-物交互检测中的应用

视觉组合学习在人-物交互检测中的应用

摘要

人-物交互(Human-Object Interaction, HOI)检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性,因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习(Visual Compositional Learning, VCL)框架,该框架简单而高效,能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征,然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征,并生成新的交互样本和新的 HOI 类型,从而大大缓解了长尾分布问题,有助于少样本或零样本的 HOI 检测。广泛的实验表明,所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力,并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。

代码仓库

zhihou7/HOI-CL-OneStage
pytorch
GitHub 中提及
zhihou7/FCL
tf
GitHub 中提及
zhihou7/HOI-CL
tf
GitHub 中提及
zhihou7/VCL
官方
tf
GitHub 中提及

基准测试

基准方法指标
affordance-recognition-on-hico-detVCL
COCO-Val2017: 36.74
HICO: 43.15
Novel classes: 12.05
Object365: 35.73
affordance-recognition-on-hico-det-unknownVCL
COCO-Val2017: 28.71
HICO: 32.76
Novel Classes: 12.05
Obj365: 27.58

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉组合学习在人-物交互检测中的应用 | 论文 | HyperAI超神经