Octo Model TeamDibya GhoshHomer WalkeKarl PertschKevin BlackOier MeesSudeep DasariJoey HejnaTobias KreimanCharles XuJianlan LuoYou Liang TanPannag SanketiQuan VuongTed XiaoDorsa SadighChelsea FinnSergey Levine

摘要
在多样化机器人数据集上预训练的大规模策略模型具有变革机器人学习的潜力:与其从零开始训练新策略,这类通用机器人策略仅需少量领域内数据即可进行微调,却能实现广泛泛化。然而,要使此类策略在多种机器人学习场景、环境和任务中具备广泛适用性,其必须能够处理多样的传感器输入与动作空间,兼容多种常用机器人平台,并能高效、便捷地迁移到新领域。在本研究中,我们旨在为开发开源、通用性强、适用于机器人操作任务的通用策略奠定基础。作为第一步,我们提出了Octo——一种基于大规模Transformer架构的策略模型,其在迄今为止最大的机器人操作数据集Open X-Embodiment(包含80万条轨迹)上进行训练。Octo可通过语言指令或目标图像进行引导,并可在标准消费级GPU上仅用数小时即完成对新传感器输入与动作空间的高效微调。在9种不同机器人平台上的实验表明,Octo可作为灵活的策略初始化方案,有效适配新的观测空间与动作空间。此外,我们还对Octo模型的设计决策进行了详尽的消融分析,涵盖模型架构与训练数据等多个方面,旨在为未来构建通用机器人模型的研究提供指导。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-on-simpler-env | Octo-Base | Variant Aggregation: 0.012 Variant Aggregation-Move Near: 0.031 Variant Aggregation-Open/Close Drawer: 0.011 Variant Aggregation-Pick Coke Can: 0.006 Visual Matching: 0.168 Visual Matching-Move Near: 0.042 Visual Matching-Open/Close Drawer: 0.227 Visual Matching-Pick Coke Can: 0.170 |
| robot-manipulation-on-simplerenv-widow-x | Octo-Small | Average: 0.300 Put Carrot on Plate: 0.097 Put Spoon on Towel: 0.472 Stack Green Block on Yellow Block: 0.042 |
| robot-manipulation-on-simplerenv-widow-x | Octo-Base | Average: 0.160 Put Carrot on Plate: 0.083 Put Spoon on Towel: 0.125 Stack Green Block on Yellow Block: 0.000 |