3 个月前

基于物体引导的跨模态校准语义的人体-物体交互检测

基于物体引导的跨模态校准语义的人体-物体交互检测

摘要

人体-物体交互(Human-Object Interaction, HOI)检测是一项从细粒度角度理解以人为中心图像的关键任务。尽管端到端的HOI检测模型发展迅速,但其并行进行人体/物体检测与动词类别预测的范式,失去了两阶段方法的优势——即基于物体的层次化先验信息。在每一个HOI三元组中,物体本身为待预测的动词提供了直接线索。本文旨在通过引入基于物体的统计先验知识,提升端到端模型的性能。具体而言,我们提出构建一个动词语义模型(Verb Semantic Model, VSM),并通过语义聚合机制充分利用这种由物体引导的层次结构。为此,我们设计了相似性KL(Similarity KL, SKL)损失函数,用于优化VSM,使其与HOI数据集中的先验分布对齐。为解决传统静态语义嵌入的局限性,我们进一步提出通过跨模态校准(Cross-Modal Calibration, CMC)生成具备跨模态感知能力的视觉与语义特征。上述模块协同构成基于物体引导的跨模态校准网络(Object-guided Cross-modal Calibration Network, OCN)。在两个主流HOI检测基准上的实验结果表明,引入统计先验知识显著提升了模型性能,并达到了当前最优水平。更深入的分析显示,所提出的模块不仅作为更强大的动词预测器,也提供了更优的先验知识利用方式。相关代码已公开,地址为:\url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}。

代码仓库

jacobyuan7/ocn-hoi-benchmark
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoOCN (ResNet101)
mAP: 31.43
human-object-interaction-detection-on-v-cocoOCN (ResNet50)
AP(S1): 64.2
AP(S2): 66.3
Time Per Frame(ms): 43
human-object-interaction-detection-on-v-cocoOCN (ResNet101)
AP(S1): 65.3
AP(S2): 67.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于物体引导的跨模态校准语义的人体-物体交互检测 | 论文 | HyperAI超神经