3 个月前

Octo:一个开源的通用机器人策略

Octo:一个开源的通用机器人策略

摘要

在多样化机器人数据集上预训练的大规模策略模型具有变革机器人学习的潜力:与其从零开始训练新策略,这类通用机器人策略仅需少量领域内数据即可进行微调,却能实现广泛泛化。然而,要使此类策略在多种机器人学习场景、环境和任务中具备广泛适用性,其必须能够处理多样的传感器输入与动作空间,兼容多种常用机器人平台,并能高效、便捷地迁移到新领域。在本研究中,我们旨在为开发开源、通用性强、适用于机器人操作任务的通用策略奠定基础。作为第一步,我们提出了Octo——一种基于大规模Transformer架构的策略模型,其在迄今为止最大的机器人操作数据集Open X-Embodiment(包含80万条轨迹)上进行训练。Octo可通过语言指令或目标图像进行引导,并可在标准消费级GPU上仅用数小时即完成对新传感器输入与动作空间的高效微调。在9种不同机器人平台上的实验表明,Octo可作为灵活的策略初始化方案,有效适配新的观测空间与动作空间。此外,我们还对Octo模型的设计决策进行了详尽的消融分析,涵盖模型架构与训练数据等多个方面,旨在为未来构建通用机器人模型的研究提供指导。

基准测试

基准方法指标
robot-manipulation-on-simpler-envOcto-Base
Variant Aggregation: 0.012
Variant Aggregation-Move Near: 0.031
Variant Aggregation-Open/Close Drawer: 0.011
Variant Aggregation-Pick Coke Can: 0.006
Visual Matching: 0.168
Visual Matching-Move Near: 0.042
Visual Matching-Open/Close Drawer: 0.227
Visual Matching-Pick Coke Can: 0.170
robot-manipulation-on-simplerenv-widow-xOcto-Small
Average: 0.300
Put Carrot on Plate: 0.097
Put Spoon on Towel: 0.472
Stack Green Block on Yellow Block: 0.042
robot-manipulation-on-simplerenv-widow-xOcto-Base
Average: 0.160
Put Carrot on Plate: 0.083
Put Spoon on Towel: 0.125
Stack Green Block on Yellow Block: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Octo:一个开源的通用机器人策略 | 论文 | HyperAI超神经