4 个月前

基于注视跟踪的视频中人-物交互预测

基于注视跟踪的视频中人-物交互预测

摘要

理解视频中的人-物交互(HOIs)对于全面理解视觉场景至关重要。这一研究方向已经通过从图像中检测HOIs以及最近从视频中检测HOIs得到了关注。然而,第三人称视角下的基于视频的HOI预测任务仍然研究不足。在本文中,我们设计了一个框架来检测当前的HOIs并预测未来的HOIs。我们提出利用人类的注视信息,因为人们通常在与某个物体互动之前会注视该物体。这些注视特征与场景上下文以及人-物对的视觉外观通过时空变换器进行融合。为了在多人情景下评估模型在HOI预测任务中的表现,我们提出了一套逐人的多标签指标。我们的模型在VidHOI数据集上进行了训练和验证,该数据集包含捕捉日常生活场景的视频,目前是最大的视频HOI数据集。实验结果表明,在HOI检测任务中,我们的方法相对基线模型提高了36.3%的效果。此外,我们进行了广泛的消融研究,以证明对时空变换器所做的修改和扩展的有效性。我们的代码已公开发布在https://github.com/nizhf/hoi-prediction-gaze-transformer。

代码仓库

nizhf/hoi-prediction-gaze-transformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-anticipation-onST-GAZE
Person-wise Top5: t=1(mAP@0.5): 37.59
Person-wise Top5: t=3(mAP@0.5): 33.14
Person-wise Top5: t=5(mAP@0.5): 32.75
human-object-interaction-detection-on-vidhoiST-GAZE
Detection: Full (mAP@0.5): 10.4
Detection: Non-Rare (mAP@0.5): 16.83
Detection: Rare (mAP@0.5): 5.46
Oracle: Full (mAP@0.5): 38.61
Oracle: Non-Rare (mAP@0.5): 52.44
Oracle: Rare (mAP@0.5): 27.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于注视跟踪的视频中人-物交互预测 | 论文 | HyperAI超神经