4 个月前

生成图像作为行为模型

生成图像作为行为模型

摘要

图像生成扩散模型已经经过微调,以解锁新的功能,如图像编辑和新视角合成。我们能否类似地为视觉运动控制解锁图像生成模型?本文介绍了GENIMA,一种通过微调Stable Diffusion来在RGB图像上“绘制关节动作”作为目标的行为克隆代理。这些图像被输入到一个控制器中,该控制器将视觉目标映射为一系列关节位置。我们在25个RLBench任务和9个现实世界操作任务上对GENIMA进行了研究。结果表明,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于当前最先进的视觉运动方法的策略,特别是在对场景扰动的鲁棒性和对新物体的泛化能力方面。尽管缺乏深度、关键点或运动规划器等先验知识,我们的方法仍然与3D代理具有竞争力。

代码仓库

基准测试

基准方法指标
robot-manipulation-generalization-on-theGENIMA
Average decrease average across all perturbations: -41.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成图像作为行为模型 | 论文 | HyperAI超神经