HyperAIHyperAI

Command Palette

Search for a command to run...

EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练

Abstract

人类在开放世界中无缝地进行多模态推理与物理交互的能力,是通用具身智能系统的核心目标。近年来,视觉-语言-动作(VLA)模型在大规模机器人与视觉-文本数据上进行联合训练,已在通用机器人控制方面展现出显著进展。然而,这些模型在交错式推理与交互方面仍无法达到人类水平的灵活性。本文提出EO-Robotics,包含EO-1模型与EO-Data1.5M数据集。EO-1是一种统一的具身基础模型,通过交错式视觉-文本-动作预训练,在多模态具身推理与机器人控制任务中实现了卓越性能。EO-1的构建基于两大核心支柱:(i)一种统一的架构,能够无差别地处理多模态输入(包括图像、文本、视频与动作);(ii)一个大规模、高质量的多模态具身推理数据集——EO-Data1.5M,该数据集包含超过150万条样本,重点聚焦于视觉-文本-动作的交错理解能力。EO-1在EO-Data1.5M上通过自回归解码与流匹配去噪之间的协同作用进行训练,从而实现机器人动作的无缝生成与多模态具身推理。大量实验表明,交错式视觉-文本-动作学习在开放世界理解与泛化方面具有显著有效性,这一结论在多种具身形态、长时程且高灵巧性的操作任务中得到了充分验证。本文详细阐述了EO-1的模型架构、EO-Data1.5M的数据构建策略以及训练方法,为发展先进的具身基础模型提供了宝贵的实践参考与理论启示。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练 | Papers | HyperAI超神经