
摘要
我们研究了具有复杂几何形状物体的机器人堆叠问题。为此,我们设计了一组具有挑战性和多样性的物体,这些物体需要超出简单的“拾取-放置”策略来完成任务。我们的方法结合了强化学习(Reinforcement Learning, RL)与基于视觉的交互式策略蒸馏以及从仿真到现实的迁移技术。通过这种方法,我们所学习的策略能够在现实世界中高效地处理多种物体组合,并展现出丰富的堆叠技能。在一项大规模实验研究中,我们探讨了在仿真环境中学习此类通用视觉代理时哪些选择至关重要,以及哪些因素影响最优策略向真实机器人的迁移。随后,我们利用这些策略收集的数据,通过离线强化学习进一步改进了它们。本研究的相关视频和博客文章作为补充材料提供。
代码仓库
deepmind/rgb_stacking
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skill-generalization-on-rgb-stacking | BC - IMP | Average: 49 Group 1: 23 Group 2: 39.3 Group 3: 39.3 Group 4: 77.5 Group 5: 66 |
| skill-mastery-on-rgb-stacking | BC-IMP | Average: 74.6 Group 1: 75.6 Group 2: 60.8 Group 3: 70.8 Group 4: 87.8 Group 5: 78.3 |