3 个月前

探索谓词视觉上下文在检测人-物交互中的应用

探索谓词视觉上下文在检测人-物交互中的应用

摘要

近年来,DETR框架已成为人类-物体交互(Human-Object Interaction, HOI)研究中的主流方法。其中,基于两阶段Transformer的HOI检测器在性能和训练效率方面表现尤为突出。然而,这类方法通常依赖于缺乏细粒度上下文信息的物体特征进行HOI分类,倾向于忽略姿态与朝向信息,转而依赖于物体身份识别和边界框端点的视觉线索。这种做法在本质上限制了对复杂或模糊交互关系的识别能力。本文通过可视化分析与精心设计的实验,深入探讨了上述问题。在此基础上,我们系统研究了如何通过交叉注意力机制更有效地重新引入图像特征。通过优化查询(query)设计、广泛探索键(key)与值(value)的表达形式,并引入边界框对的坐标位置嵌入作为空间引导,我们提出的模型在增强谓词视觉上下文(Predicate Visual Context, PViC)方面取得了显著改进。该模型在HICO-DET与V-COCO两个基准测试上均超越现有最先进方法,同时保持了较低的训练成本。

代码仓库

fredzzhang/pvic
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoPViC-SwinL
mAP: 44.32
human-object-interaction-detection-on-hicoPViC-R50
mAP: 34.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索谓词视觉上下文在检测人-物交互中的应用 | 论文 | HyperAI超神经