6 个月前

摘要

近期表现优异的人体-物体交互（Human-Object Interaction, HOI）检测技术深受基于Transformer的物体检测器（如DETR）的影响。然而，大多数现有方法在单阶段框架中直接通过标准Transformer将参数化的交互查询映射为一组HOI预测结果，导致丰富的交互间或交互内结构信息未能得到充分挖掘。针对这一问题，本文提出一种新型的基于Transformer架构的HOI检测器——交互提议结构感知Transformer（Structure-aware Transformer over Interaction Proposals, STIP）。该设计将HOI集合的预测过程分解为两个连续阶段：首先生成交互提议（interaction proposals），随后通过结构感知Transformer将非参数化的交互提议转化为最终的HOI预测结果。其中，结构感知Transformer在标准Transformer的基础上，额外编码了交互提议之间的整体语义结构，以及每个交互提议中人体与物体之间的局部空间结构信息，从而有效增强HOI预测的准确性。在V-COCO与HICO-DET两个主流基准上的大量实验结果表明，STIP显著提升了检测性能，其效果优于当前最先进的HOI检测方法。项目源代码已公开，地址为：\url{https://github.com/zyong812/STIP}。

源 PDF