4 个月前

TraceVLA:视觉追踪提示增强通用机器人策略的空间-时间意识

TraceVLA:视觉追踪提示增强通用机器人策略的空间-时间意识

摘要

尽管在大量机器人数据集上预训练的大型视觉-语言-动作(VLA)模型为机器人学习提供了有前景的通用策略,它们在交互式机器人中的空间-时间动态方面仍面临挑战,导致在处理复杂任务(如操作)时效果不佳。在这项工作中,我们引入了一种简单而有效的方法——视觉轨迹提示(visual trace prompting),通过视觉编码状态-动作轨迹来增强VLA模型的空间-时间意识,从而改进其动作预测能力。我们基于自己的15万个机器人操作轨迹数据集,对OpenVLA进行了微调,开发出新的TraceVLA模型。在SimplerEnv环境下的137种配置和物理WidowX机器人上的4项任务中进行的评估表明,TraceVLA表现出最先进的性能,在SimplerEnv上比OpenVLA提高了10%,在真实机器人任务上则提高了3.5倍,并且在不同形态和场景中展现出强大的泛化能力。为了进一步验证我们方法的有效性和通用性,我们基于4B Phi-3-Vision构建了一个紧凑的VLA模型,该模型在Open-X-Embodiment数据集上进行了预训练,并在我们的数据集上进行了微调,其性能与7B OpenVLA基线相当,同时显著提升了推理效率。

基准测试

基准方法指标
robot-manipulation-on-simpler-envTraceVLA
Variant Aggregation: 0.450
Variant Aggregation-Move Near: 0.564
Variant Aggregation-Open/Close Drawer: 0.310
Variant Aggregation-Pick Coke Can: 0.600
Visual Matching: 0.460
Visual Matching-Move Near: 0.600
Visual Matching-Open/Close Drawer: 0.240
Visual Matching-Pick Coke Can: 0.560

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TraceVLA:视觉追踪提示增强通用机器人策略的空间-时间意识 | 论文 | HyperAI超神经