
摘要
人-物交互(Human-Object Interaction, HOI)检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性,因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习(Visual Compositional Learning, VCL)框架,该框架简单而高效,能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征,然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征,并生成新的交互样本和新的 HOI 类型,从而大大缓解了长尾分布问题,有助于少样本或零样本的 HOI 检测。广泛的实验表明,所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力,并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。
代码仓库
zhihou7/HOI-CL-OneStage
pytorch
GitHub 中提及
zhihou7/FCL
tf
GitHub 中提及
zhihou7/HOI-CL
tf
GitHub 中提及
zhihou7/VCL
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| affordance-recognition-on-hico-det | VCL | COCO-Val2017: 36.74 HICO: 43.15 Novel classes: 12.05 Object365: 35.73 |
| affordance-recognition-on-hico-det-unknown | VCL | COCO-Val2017: 28.71 HICO: 32.76 Novel Classes: 12.05 Obj365: 27.58 |