4 个月前

ST-HOI:视频中人-物交互检测的空间-时间基线模型

ST-HOI:视频中人-物交互检测的空间-时间基线模型

摘要

检测人-物交互(Human-Object Interaction, HOI)是实现机器全面视觉理解的重要步骤。虽然从静态图像中检测非时间相关的HOI(例如,坐在椅子上)是可行的,但即使对于人类而言,仅凭单个视频帧来猜测时间相关的HOI(例如,开门/关门)也是困难的,因为相邻帧在其中起着关键作用。然而,传统的仅基于静态图像的HOI方法被用于预测时间相关交互,这本质上是在没有时间上下文的情况下进行猜测,可能导致性能不佳。在本文中,我们通过检测带有显式时间信息的视频HOI来弥合这一差距。首先,我们展示了常见的动作检测基线方法的一个简单的时间感知变体由于特征不一致性问题而无法应用于视频HOI。接着,我们提出了一种简单而有效的架构——时空HOI检测(Spatial-Temporal HOI Detection, ST-HOI),该架构利用了时间信息如人体和物体轨迹、准确定位的视觉特征以及时空遮罩姿态特征。我们构建了一个新的视频HOI基准数据集,命名为VidHOI,在该数据集中我们的方法作为坚实的基线模型。

代码仓库

coldmanck/VidHOI
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-anticipation-onSTTRAN
Person-wise Top5: t=1(mAP@0.5): 29.09
Person-wise Top5: t=3(mAP@0.5): 27.59
Person-wise Top5: t=5(mAP@0.5): 27.32
human-object-interaction-detection-on-vidhoiSTTRAN
Detection: Full (mAP@0.5): 7.61
Detection: Non-Rare (mAP@0.5): 13.18
Detection: Rare (mAP@0.5): 3.33
Oracle: Full (mAP@0.5): 28.32
Oracle: Non-Rare (mAP@0.5): 42.08
Oracle: Rare (mAP@0.5): 17.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ST-HOI:视频中人-物交互检测的空间-时间基线模型 | 论文 | HyperAI超神经