
摘要
近期基于Transformer的方法通过结合DETR的检测能力与视觉-语言模型(VLM)的先验知识,在人-物体交互检测(Human-Object Interaction Detection, HOID)任务中取得了显著进展。然而,这些方法在解码过程中因物体检测与HOI识别任务的耦合,导致训练时间延长且优化过程复杂。尤其值得注意的是,用于同时预测类别标签和边界框的查询嵌入存在语义模糊问题,且HOI标签与动词标签之间的预测差距未被充分考虑。为解决上述挑战,本文提出SOV-STG-VLA框架,包含三个核心组件:主体-客体-动词(Subject-Object-Verb, SOV)解码机制、特定目标引导(Specific Target Guided, STG)去噪策略以及视觉-语言顾问(Vision-Language Advisor, VLA)。我们的SOV解码机制通过引入一种新型的交互区域表示,实现了物体检测与动词识别的解耦,有效缓解了任务混淆问题。STG去噪策略利用真实标签信息学习标签嵌入,从而在训练与推理阶段提供更精准的引导。SOV-STG框架在保证高精度的同时实现了快速收敛,为VLA模块融合VLM先验知识奠定了基础。进一步地,我们设计了视觉顾问解码器,用于融合交互区域信息与VLM提供的视觉知识,并引入动词-HOI预测桥接机制,以促进交互表征的学习。实验表明,所提出的VLA显著提升了SOV-STG的性能,在仅需近期SOTA方法六分之一训练轮次的情况下,达到了当前最优(SOTA)水平。相关代码与模型已开源,地址为:https://github.com/cjw2021/SOV-STG-VLA。
代码仓库
cjw2021/sov-stg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | SOV-STG (Swin-L) | mAP: 43.35 |