4 个月前

基于视频的人-物交互热点挖掘

基于视频的人-物交互热点挖掘

摘要

学习如何与物体互动是实现具身视觉智能的重要一步,但现有的技术方法存在严重的监督或感知需求问题。我们提出了一种直接从视频中学习人类-物体互动“热点”的方法。与将可操作性视为一种手动监督的语义分割任务不同,我们的方法通过观察真实的人类行为视频并预测可能的动作来学习互动。对于一张新的图像或视频,我们的模型可以推断出一个空间热点图,指示在潜在的互动中物体将如何被操纵——即使该物体当前处于静止状态。通过第一人称和第三人称视频的结果,我们展示了将可操作性基于真实的人类-物体互动的价值。我们的弱监督热点不仅在性能上与强监督的可操作性方法相当,而且还能预测新型物体类别中的互动行为。

代码仓库

Tushar-N/interaction-hotspots
pytorch
GitHub 中提及

基准测试

基准方法指标
video-to-image-affordance-grounding-on-epicHotspot
AUC-J: 0.79
KLD: 1.26
SIM: 0.40
video-to-image-affordance-grounding-on-opra-1Hotspot
AUC-J: 0.81
KLD: 1.47
SIM: 0.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视频的人-物交互热点挖掘 | 论文 | HyperAI超神经