Ruijie ZhengYongyuan LiangShuaiyi HuangJianfeng GaoHal Daumé IIIAndrey KolobovFurong HuangJianwei Yang

摘要
尽管在大量机器人数据集上预训练的大型视觉-语言-动作(VLA)模型为机器人学习提供了有前景的通用策略,它们在交互式机器人中的空间-时间动态方面仍面临挑战,导致在处理复杂任务(如操作)时效果不佳。在这项工作中,我们引入了一种简单而有效的方法——视觉轨迹提示(visual trace prompting),通过视觉编码状态-动作轨迹来增强VLA模型的空间-时间意识,从而改进其动作预测能力。我们基于自己的15万个机器人操作轨迹数据集,对OpenVLA进行了微调,开发出新的TraceVLA模型。在SimplerEnv环境下的137种配置和物理WidowX机器人上的4项任务中进行的评估表明,TraceVLA表现出最先进的性能,在SimplerEnv上比OpenVLA提高了10%,在真实机器人任务上则提高了3.5倍,并且在不同形态和场景中展现出强大的泛化能力。为了进一步验证我们方法的有效性和通用性,我们基于4B Phi-3-Vision构建了一个紧凑的VLA模型,该模型在Open-X-Embodiment数据集上进行了预训练,并在我们的数据集上进行了微调,其性能与7B OpenVLA基线相当,同时显著提升了推理效率。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-on-simpler-env | TraceVLA | Variant Aggregation: 0.450 Variant Aggregation-Move Near: 0.564 Variant Aggregation-Open/Close Drawer: 0.310 Variant Aggregation-Pick Coke Can: 0.600 Visual Matching: 0.460 Visual Matching-Move Near: 0.600 Visual Matching-Open/Close Drawer: 0.240 Visual Matching-Pick Coke Can: 0.560 |