8 个月前

机器人技术

多任务学习

多模态表征

Delin Qu; Haoming Song; Qizhi Chen; Yuanqi Yao; Xinyi Ye; Yan Ding; Zhigang Wang; JiaYuan Gu; Bin Zhao; Dong Wang; Xuelong Li

摘要

本文中，我们提出空间理解是机器人操作的关键点，并引入了SpatialVLA来探索机器人基础模型的有效空间表示方法。具体而言，我们引入了Ego3D位置编码（Ego3D Position Encoding），以将三维信息注入视觉-语言-动作模型的输入观测数据中，并提出了自适应动作网格（Adaptive Action Grids）来用自适应离散化动作网格表示机器人的空间运动动作，从而有助于学习可跨机器人控制的通用性和可迁移的空间动作知识。SpatialVLA首先在110万个真实世界机器人场景的基础上进行预训练，以学习在多个机器人环境和任务中的通用操作策略。预训练完成后，SpatialVLA可以直接应用于零样本方式执行众多任务。无论是仿真还是实际机器人上的优越结果都证明了其在推断复杂机器人运动轨迹方面的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为新的仿真和实际设置提供了新的有效微调预训练SpatialVLA模型的方法，在这些新设置中，预先学习的动作网格被重新离散化以捕捉特定于机器人的空间运动动作。广泛的评估结果显示了该方法在分布内泛化和分布外适应方面的卓越能力，突显了所提出的空间感知表示对通用机器人策略学习的重要贡献。所有细节和代码将开源发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器人技术

多任务学习

多模态表征

Delin Qu; Haoming Song; Qizhi Chen; Yuanqi Yao; Xinyi Ye; Yan Ding; Zhigang Wang; JiaYuan Gu; Bin Zhao; Dong Wang; Xuelong Li

摘要

本文中，我们提出空间理解是机器人操作的关键点，并引入了SpatialVLA来探索机器人基础模型的有效空间表示方法。具体而言，我们引入了Ego3D位置编码（Ego3D Position Encoding），以将三维信息注入视觉-语言-动作模型的输入观测数据中，并提出了自适应动作网格（Adaptive Action Grids）来用自适应离散化动作网格表示机器人的空间运动动作，从而有助于学习可跨机器人控制的通用性和可迁移的空间动作知识。SpatialVLA首先在110万个真实世界机器人场景的基础上进行预训练，以学习在多个机器人环境和任务中的通用操作策略。预训练完成后，SpatialVLA可以直接应用于零样本方式执行众多任务。无论是仿真还是实际机器人上的优越结果都证明了其在推断复杂机器人运动轨迹方面的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为新的仿真和实际设置提供了新的有效微调预训练SpatialVLA模型的方法，在这些新设置中，预先学习的动作网格被重新离散化以捕捉特定于机器人的空间运动动作。广泛的评估结果显示了该方法在分布内泛化和分布外适应方面的卓越能力，突显了所提出的空间感知表示对通用机器人策略学习的重要贡献。所有细节和代码将开源发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供