4 个月前

SpatialVLA:探索视觉-语言-动作模型的空间表示

SpatialVLA:探索视觉-语言-动作模型的空间表示

摘要

本文中,我们提出空间理解是机器人操作的关键点,并引入了SpatialVLA来探索机器人基础模型的有效空间表示方法。具体而言,我们引入了Ego3D位置编码(Ego3D Position Encoding),以将三维信息注入视觉-语言-动作模型的输入观测数据中,并提出了自适应动作网格(Adaptive Action Grids)来用自适应离散化动作网格表示机器人的空间运动动作,从而有助于学习可跨机器人控制的通用性和可迁移的空间动作知识。SpatialVLA首先在110万个真实世界机器人场景的基础上进行预训练,以学习在多个机器人环境和任务中的通用操作策略。预训练完成后,SpatialVLA可以直接应用于零样本方式执行众多任务。无论是仿真还是实际机器人上的优越结果都证明了其在推断复杂机器人运动轨迹方面的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为新的仿真和实际设置提供了新的有效微调预训练SpatialVLA模型的方法,在这些新设置中,预先学习的动作网格被重新离散化以捕捉特定于机器人的空间运动动作。广泛的评估结果显示了该方法在分布内泛化和分布外适应方面的卓越能力,突显了所提出的空间感知表示对通用机器人策略学习的重要贡献。所有细节和代码将开源发布。

基准测试

基准方法指标
robot-manipulation-on-simpler-envSpatialVLA
Variant Aggregation: 0.688
Variant Aggregation-Move Near: 0.717
Variant Aggregation-Open/Close Drawer: 0.362
Variant Aggregation-Pick Coke Can: 0.895
Visual Matching: 0.719
Visual Matching-Move Near: 0.696
Visual Matching-Open/Close Drawer: 0.593
Visual Matching-Pick Coke Can: 0.810
robot-manipulation-on-simplerenv-widow-xSpatialVLA
Average: 0.344
Put Carrot on Plate: 0.208
Put Spoon on Towel: 0.208
Stack Green Block on Yellow Block: 0.250

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpatialVLA:探索视觉-语言-动作模型的空间表示 | 论文 | HyperAI超神经