摘要

我们研究如何将基于互联网规模数据训练的视觉-语言模型直接融入端到端机器人控制框架中，以提升模型的泛化能力，并实现涌现的语义推理能力。我们的目标是使单一的端到端训练模型既能学习将机器人观测映射为动作，又能充分受益于在互联网规模的语言与视觉-语言数据上进行的大规模预训练。为此，我们提出一种方法：在机器人轨迹数据与互联网规模的视觉-语言任务（如视觉问答）上，对当前最先进的视觉-语言模型进行联合微调。与现有方法不同，我们提出了一种简单且通用的实现路径：为使自然语言回答与机器人动作能够统一表示，我们将动作以文本标记（text tokens）的形式表达，并像自然语言标记一样，直接将其纳入模型的训练数据集中。我们将此类模型称为视觉-语言-动作模型（Vision-Language-Action models, VLA），并构建了一个具体实例，命名为RT-2。大规模评估（共6000次实验）表明，该方法能够生成高性能的机器人策略，并使RT-2模型在互联网规模训练的基础上展现出多种涌现能力。这些能力包括：对新物体的显著增强的泛化能力；理解机器人训练数据中未出现过的指令（例如将某物体放置在特定数字或图标上）；以及对用户指令进行基础层面的推理（例如拾起最小或最大的物体，或距离另一物体最近的物体）。此外，我们进一步证明，引入“思维链”（Chain-of-Thought）推理机制后，RT-2能够执行多阶段的语义推理任务，例如判断应拾取何种物体作为临时锤子（如一块石头），或为感到疲倦的人推荐最合适的饮品（如能量饮料）。

源 PDF