
摘要
人体-物体交互(Human-Object Interaction, HOI)识别面临两大挑战:(1)类别间存在显著的不平衡问题;(2)每张图像需要标注多个交互标签。本文表明,仅通过优化分类器结构而保持主干网络(backbone architecture)不变,即可有效应对上述两个难题。首先,我们通过使用HOI的语言嵌入(language embeddings)初始化分类头的权重,将类别间的语义相关性编码进分类器中,显著提升了整体性能,尤其是在少样本(few-shot)子集上的表现。其次,我们提出一种新型损失函数——LSE-Sign,用于增强在长尾分布数据集上的多标签学习能力。所提方法简单而高效,实现了无需目标检测的HOI分类,其性能明显优于依赖目标检测与人体姿态估计的现有最先进方法。此外,我们通过将该分类模型与现成的通用目标检测器连接,将其迁移应用于实例级HOI检测任务,仅通过端到端连接即可达到当前最优性能,无需额外微调。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | DEFR | mAP: 32.35 |
| human-object-interaction-detection-on-hico-1 | DEFR | mAP: 65.6 |