3 个月前

RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制

RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制

摘要

我们研究如何将基于互联网规模数据训练的视觉-语言模型直接融入端到端机器人控制框架中,以提升模型的泛化能力,并实现涌现的语义推理能力。我们的目标是使单一的端到端训练模型既能学习将机器人观测映射为动作,又能充分受益于在互联网规模的语言与视觉-语言数据上进行的大规模预训练。为此,我们提出一种方法:在机器人轨迹数据与互联网规模的视觉-语言任务(如视觉问答)上,对当前最先进的视觉-语言模型进行联合微调。与现有方法不同,我们提出了一种简单且通用的实现路径:为使自然语言回答与机器人动作能够统一表示,我们将动作以文本标记(text tokens)的形式表达,并像自然语言标记一样,直接将其纳入模型的训练数据集中。我们将此类模型称为视觉-语言-动作模型(Vision-Language-Action models, VLA),并构建了一个具体实例,命名为RT-2。大规模评估(共6000次实验)表明,该方法能够生成高性能的机器人策略,并使RT-2模型在互联网规模训练的基础上展现出多种涌现能力。这些能力包括:对新物体的显著增强的泛化能力;理解机器人训练数据中未出现过的指令(例如将某物体放置在特定数字或图标上);以及对用户指令进行基础层面的推理(例如拾起最小或最大的物体,或距离另一物体最近的物体)。此外,我们进一步证明,引入“思维链”(Chain-of-Thought)推理机制后,RT-2能够执行多阶段的语义推理任务,例如判断应拾取何种物体作为临时锤子(如一块石头),或为感到疲倦的人推荐最合适的饮品(如能量饮料)。

代码仓库

基准测试

基准方法指标
robot-manipulation-on-simpler-envRT-2-X
Variant Aggregation: 0.661
Variant Aggregation-Move Near: 0.792
Variant Aggregation-Open/Close Drawer: 0.353
Variant Aggregation-Pick Coke Can: 0.823
Visual Matching: 0.606
Visual Matching-Move Near: 0.779
Visual Matching-Open/Close Drawer: 0.250
Visual Matching-Pick Coke Can: 0.787

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 | 论文 | HyperAI超神经