
摘要
人-物体交互(Human-Object Interaction, HOI)检测旨在定位人与物体的配对并识别其交互关系。近年来,对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)通过知识蒸馏在为HOI检测器提供交互先验方面展现出巨大潜力。然而,现有方法通常依赖大规模训练数据,在少样本(few-shot)或零样本(zero-shot)场景下性能显著下降。本文提出一种新颖的HOI检测框架,能够高效地从CLIP中提取先验知识,显著提升模型的泛化能力。具体而言,我们首先设计了一种新型交互解码器,利用交叉注意力机制从CLIP的视觉特征图中提取具有信息量的区域特征,并通过知识融合模块将其与检测主干网络进行融合,从而实现更精准的人-物体对定位。此外,我们充分利用CLIP文本编码器中蕴含的先验知识,通过嵌入HOI描述文本生成分类器。为区分细粒度的交互动作,我们基于训练数据构建了一个动词分类器,结合视觉语义运算(visual semantic arithmetic)与轻量级动词表征适配器(lightweight verb representation adapter),进一步提升分类精度。此外,我们提出一种无需训练的增强策略,以充分利用CLIP输出的全局HOI预测结果。大量实验表明,所提方法在多种设置下均显著优于现有最先进方法,例如在HICO-Det数据集上取得了+4.04 mAP的提升。相关源代码已开源,地址为:https://github.com/Artanic30/HOICLIP。
代码仓库
artanic30/hoiclip
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | HOICLIP | mAP: 34.69 |
| human-object-interaction-detection-on-v-coco | HOICLIP | AP(S1): 63.50 AP(S2): 64.81 |