
摘要
在人类环境中,机器人被期望能够在简单的自然语言指令下完成各种操作任务。然而,机器人操作极具挑战性,因为它需要精细的运动控制、长期记忆以及对先前未见过的任务和环境的泛化能力。为了解决这些挑战,我们提出了一种统一的基于变压器(Transformer)的方法,该方法考虑了多种输入。具体而言,我们的变压器架构集成了(i)自然语言指令和(ii)多视角场景观察,同时(iii)跟踪完整的观察和动作历史。这种方法能够学习历史与指令之间的依赖关系,并利用多视角提高操作精度。我们在具有挑战性的RLBench基准测试和实际机器人上评估了我们的方法。值得注意的是,我们的方法可以扩展到74个不同的RLBench任务,并且超越了现有技术。此外,我们还解决了指令条件下的任务,并展示了对先前未见过的变化的出色泛化能力。
代码仓库
guhur/hiveformer
pytorch
vlc-robot/polarnet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-generalization-on-gembench | Hiveformer | Average Success Rate: 30.4 Average Success Rate (L1): 60.3±1.5 Average Success Rate (L2): 26.1±1.4 Average Success Rate (L3): 35.1±1.7 Average Success Rate (L4): 0.0±0.0 |
| robot-manipulation-on-rlbench | Hiveformer | Succ. Rate (10 tasks, 100 demos/task): 83.3 Succ. Rate (18 tasks, 100 demo/task): 45.3 |