4 个月前

通过视频预测实现物理交互的无监督学习

通过视频预测实现物理交互的无监督学习

摘要

一个智能体学习与世界互动的核心挑战在于预测其行为如何影响环境中的物体。现有的许多学习物理交互动力学的方法都需要标记的物体信息。然而,为了将现实世界的交互学习扩展到各种场景和物体,获取标记数据变得越来越不切实际。为了解决在没有标签的情况下学习物理物体运动的问题,我们开发了一种基于动作条件的视频预测模型,该模型通过从前几帧中预测像素运动的概率分布来显式建模像素运动。由于我们的模型显式地预测了运动,因此它对物体外观具有部分不变性,这使得它可以推广到以前未见过的物体上。为了探索视频预测在现实世界交互智能体中的应用,我们还引入了一个包含59,000次机器人推动物体交互的数据集,其中包括一个包含新物体的测试集。在这个数据集中,根据机器人的未来动作准确预测视频相当于基于不同的行动路径学习“视觉想象”不同的未来情景。实验结果表明,与先前的方法相比,我们提出的方法在定量和定性方面都能生成更准确的视频预测。

基准测试

基准方法指标
video-generation-on-bair-robot-pushingCDNA (from FVD)
Cond: 2
FVD score: 296.5
Pred: 14
Train: 14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过视频预测实现物理交互的无监督学习 | 论文 | HyperAI超神经