3 个月前

迈向通用机器人策略：构建视觉-语言-动作模型的关键要素

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

摘要

视觉-语言模型（Foundation Vision-Language Models, VLMs）在多模态表征学习、理解与推理方面展现出强大的能力。通过向VLM中引入动作组件，可自然地构建出视觉-语言-动作模型（Vision-Language-Action Models, VLAs），并表现出令人瞩目的性能。已有研究证实，VLAs在多种场景与任务中均具备良好的有效性与泛化能力。然而，从VLM到VLA的迁移并非简单直接，因为现有的VLAs在骨干网络架构、动作预测建模方式、数据分布以及训练策略等方面存在显著差异。这一现状导致当前缺乏对VLAs设计选择的系统性理解。在本研究中，我们揭示了显著影响VLA性能的关键因素，并聚焦于回答三个核心设计问题：应选择何种骨干网络？如何构建VLA的架构？在何时引入跨模态（cross-embodiment）数据？实验结果充分证明了构建VLA的必要性，并由此推动我们提出了一类新型VLAs——RoboVLMs。该模型仅需极少的人工设计干预，便在三个仿真任务和真实世界实验中取得了新的最先进（state-of-the-art）性能。通过涵盖超过8种VLM骨干网络、4种策略架构，以及超过600组独立设计的实验，我们系统性地构建了一本详尽的VLAs设计指南，为未来研究提供坚实依据。此外，我们公开发布了高度灵活的RoboVLMs框架，支持新VLM的便捷集成以及各类设计选项的自由组合，以促进后续研究的发展。所有相关资源——包括代码、模型、数据集、工具包，以及详细的训练与评估流程——均已开源，详见：robovlms.github.io。

代码仓库

Robot-VLAs/RoboVLMs

pytorch

GitHub 中提及

基准测试

基准	方法	指标
robot-manipulation-on-simpler-env	RoboVLM	Variant Aggregation: 0.463 Variant Aggregation-Move Near: 0.560 Variant Aggregation-Open/Close Drawer: 0.085 Variant Aggregation-Pick Coke Can: 0.683 Visual Matching: 0.563 Visual Matching-Move Near: 0.663 Visual Matching-Open/Close Drawer: 0.268 Visual Matching-Pick Coke Can: 0.727
robot-manipulation-on-simplerenv-widow-x	RoboVLM	Average: 0.135 Put Carrot on Plate: 0.250 Put Eggplant in Yellow Basket: 0.000 Put Spoon on Towel: 0.208 Stack Green Block on Yellow Block: 0.083

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供