3 个月前

FGAHOI:用于人-物体交互检测的细粒度锚点

FGAHOI:用于人-物体交互检测的细粒度锚点

摘要

人体-物体交互(Human-Object Interaction, HOI)是计算机视觉领域的一个重要问题,其核心任务在于定位人体与物体的配对,并识别二者之间的交互关系。相较于单一物体实例,HOI实例在空间范围、尺度分布以及任务复杂度方面均具有更大的跨度,因此在检测过程中更容易受到复杂背景噪声的干扰。为缓解背景噪声对HOI检测的不利影响,有必要充分利用输入图像信息,生成细粒度的候选区域(anchor),并以此引导HOI实例的检测。然而,实现这一目标仍面临以下挑战:其一,如何从背景复杂图像中有效提取关键特征,仍是尚未解决的关键问题;其二,如何在语义层面实现提取特征与查询嵌入(query embeddings)之间的精准对齐,也是一项技术难点。针对上述问题,本文提出一种全新的端到端基于Transformer的框架——FGAHOI(Fine-Grained Anchor for HOI Detection)。该框架包含三个专为HOI检测设计的核心模块:多尺度采样(Multi-scale Sampling, MSS)、分层空间感知融合(Hierarchical Spatial-aware Merging, HSAM)以及任务感知融合机制(Task-aware Merging, TAM)。其中,MSS模块从噪声背景中提取适用于不同尺度HOI实例的人体、物体及其交互区域的特征;HSAM与TAM模块则依次从分层空间结构和任务语义两个维度,实现特征与查询嵌入的语义对齐与融合。此外,为缓解FGAHOI框架因任务高度复杂而带来的训练压力,本文设计了一种新颖的分阶段训练策略(Stage-wise Training Strategy)。同时,为应对HOI检测中的两大挑战——人体-物体对在空间分布上的不均衡性(Uneven Distributed Area in Human-Object Pairs)以及远距离人体-物体之间的视觉建模难题(Long Distance Visual Modeling of Human-Object Pairs),本文还提出了两种新的HOI检测难度评估方法,并构建了一个新型数据集HOI-SDC,以支持相关研究的深入探索。

代码仓库

xiaomabufei/fgahoi
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoFGAHOI
mAP: 37.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FGAHOI:用于人-物体交互检测的细粒度锚点 | 论文 | HyperAI超神经