3 个月前

不再未知:解锁CLIP在生成式零样本HOI检测中的潜力

不再未知:解锁CLIP在生成式零样本HOI检测中的潜力

摘要

零样本人类-物体交互(Zero-shot Human-Object Interaction, HOI)检测器具备在训练阶段未见过的HOI类别上进行泛化的能力。受CLIP模型在零样本任务中表现出色的启发,近期方法致力于利用CLIP的嵌入表示来提升零样本HOI检测性能。然而,这些基于嵌入的方法仅在已见类别上训练分类器,不可避免地在推理阶段导致已见与未见类别之间的混淆。此外,我们发现引入提示调优(prompt-tuning)和适配器(adapters)会进一步加剧已见类别与未见类别之间准确率的差距。为应对这一挑战,本文提出首个基于生成机制的CLIP零样本HOI检测模型——HOIGen。该模型突破了传统方法仅依赖CLIP进行特征提取的局限,充分释放CLIP在特征生成方面的潜力。为此,我们设计了一种注入CLIP的特征生成器,专门用于生成人类、物体及二者联合的特征。随后,我们通过提取真实已见样本的特征,并将其与合成生成的特征混合,使模型能够联合训练已见与未见类别,从而缓解类别混淆问题。为进一步提升HOI得分的表达能力,我们在成对交互识别分支中构建了一个生成式原型库(generative prototype bank),在图像级交互识别分支中引入一个多知识原型库(multi-knowledge prototype bank),以增强模型对复杂交互关系的建模能力。在HICO-DET基准上的大量实验表明,相较于当前表现最优的其他方法,HOIGen在多种零样本设置下均在已见类别和未见类别上实现了更优的性能。代码已开源,地址为:https://github.com/soberguo/HOIGen。

代码仓库

soberguo/hoigen
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoHOIGen
Detection: Full (mAP@0.5): 34.84
Detection: Non-Rare (mAP@0.5): 34.94
Detection: Rare (mAP@0.5): 34.52
mAP: 34.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
不再未知:解锁CLIP在生成式零样本HOI检测中的潜力 | 论文 | HyperAI超神经