
摘要
本文针对当前人类-物体交互(HOI)检测方法存在的问题,提出了一种基于预训练文本-图像扩散模型的新型HOI检测框架——DiffHOI。该方法通过提升数据多样性与HOI语义表征能力,显著增强了检测器的性能。我们发现,冻结的文本到图像扩散模型内部的表示空间与动词概念及其上下文具有高度相关性。基于此,本文提出一种适配器(adapter-style)微调策略,从冻结的扩散模型与CLIP模型中提取多样化的语义关联表征,用于增强预训练检测器中对人与物体的表征能力,从而有效降低交互预测中的歧义性。此外,为弥补现有HOI数据集在类别分布与数据规模上的不足,本文进一步提出SynHOI——一个类别均衡、大规模且高多样性的合成数据集,包含超过14万张带有完整三元组标注的HOI图像。该数据集通过一套自动化、可扩展的生成管道构建,能够高效生成多样化且高精度的HOI标注数据。SynHOI有效缓解了现有数据集中长期存在的长尾分布问题,有助于模型更好地学习交互语义表征。大量实验证明,DiffHOI在常规检测任务(即41.50 mAP)和零样本检测任务中均显著超越当前最优方法。同时,SynHOI可提升模型无关(model-agnostic)与主干网络无关(backbone-agnostic)的HOI检测性能,尤其在稀有类别上展现出卓越的提升效果,最高达11.55%的mAP增益。
代码仓库
IDEA-Research/DiffHOI
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | DiffHOI | mAP: 41.50 |
| human-object-interaction-detection-on-v-coco | DiffHOI | AP(S1): 65.7 AP(S2): 68.2 |