3 个月前

RoboUniView:面向机器人操作的具有统一视图表示的视觉-语言模型

RoboUniView:面向机器人操作的具有统一视图表示的视觉-语言模型

摘要

利用视觉-语言模型(Vision-Language Models, VLMs)进行机器人操作代表了一种新兴范式,旨在提升模型对新物体和新指令的泛化能力。然而,由于摄像头规格和安装位置的差异,现有方法在不同机器人平台上的性能表现存在显著差距。为应对这一挑战,本文提出RoboUniView,一种创新性方法,其核心思想是将视觉特征提取与动作学习解耦。我们首先通过在易于获取的数据上进行预训练,从多视角图像中学习一种统一的视觉表征;随后,基于该统一视觉表征推导出控制动作,以实现机器人操作。这种统一的视觉表征更准确地反映了物理世界,且不受特定机器人平台摄像头参数的限制。得益于该方法,我们在具有挑战性的CALVIN基准测试中取得了当前最优性能:在$D \to D$设置下,成功率从93.0%提升至96.2%;在$ABC \to D$设置下,从92.2%提升至94.2%。此外,我们的模型展现出卓越的适应性与灵活性——在未见过的摄像头参数条件下仍能保持高性能,可有效利用具有不同摄像头参数的多个数据集,并支持跨数据集的联合多任务学习。相关代码已公开,可供复现:https://github.com/liufanfanlff/RoboUniview。

代码仓库

liufanfanlff/robouniview
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
robot-manipulation-on-calvinRoboUniView(Ours)
avg. sequence length (D to D): 3.855
zero-shot-generalization-on-calvinRoboUniView
Avg. sequence length: 3.647

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RoboUniView:面向机器人操作的具有统一视图表示的视觉-语言模型 | 论文 | HyperAI超神经