
摘要
本文中,我们提出空间理解是机器人操作的关键点,并引入了SpatialVLA来探索机器人基础模型的有效空间表示方法。具体而言,我们引入了Ego3D位置编码(Ego3D Position Encoding),以将三维信息注入视觉-语言-动作模型的输入观测数据中,并提出了自适应动作网格(Adaptive Action Grids)来用自适应离散化动作网格表示机器人的空间运动动作,从而有助于学习可跨机器人控制的通用性和可迁移的空间动作知识。SpatialVLA首先在110万个真实世界机器人场景的基础上进行预训练,以学习在多个机器人环境和任务中的通用操作策略。预训练完成后,SpatialVLA可以直接应用于零样本方式执行众多任务。无论是仿真还是实际机器人上的优越结果都证明了其在推断复杂机器人运动轨迹方面的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为新的仿真和实际设置提供了新的有效微调预训练SpatialVLA模型的方法,在这些新设置中,预先学习的动作网格被重新离散化以捕捉特定于机器人的空间运动动作。广泛的评估结果显示了该方法在分布内泛化和分布外适应方面的卓越能力,突显了所提出的空间感知表示对通用机器人策略学习的重要贡献。所有细节和代码将开源发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-on-simpler-env | SpatialVLA | Variant Aggregation: 0.688 Variant Aggregation-Move Near: 0.717 Variant Aggregation-Open/Close Drawer: 0.362 Variant Aggregation-Pick Coke Can: 0.895 Visual Matching: 0.719 Visual Matching-Move Near: 0.696 Visual Matching-Open/Close Drawer: 0.593 Visual Matching-Pick Coke Can: 0.810 |
| robot-manipulation-on-simplerenv-widow-x | SpatialVLA | Average: 0.344 Put Carrot on Plate: 0.208 Put Spoon on Towel: 0.208 Stack Green Block on Yellow Block: 0.250 |