6 个月前

摘要

利用视觉-语言模型（Vision-Language Models, VLMs）进行机器人操作代表了一种新兴范式，旨在提升模型对新物体和新指令的泛化能力。然而，由于摄像头规格和安装位置的差异，现有方法在不同机器人平台上的性能表现存在显著差距。为应对这一挑战，本文提出RoboUniView，一种创新性方法，其核心思想是将视觉特征提取与动作学习解耦。我们首先通过在易于获取的数据上进行预训练，从多视角图像中学习一种统一的视觉表征；随后，基于该统一视觉表征推导出控制动作，以实现机器人操作。这种统一的视觉表征更准确地反映了物理世界，且不受特定机器人平台摄像头参数的限制。得益于该方法，我们在具有挑战性的CALVIN基准测试中取得了当前最优性能：在 $D \to D$ 设置下，成功率从93.0%提升至96.2%；在 $ABC \to D$ 设置下，从92.2%提升至94.2%。此外，我们的模型展现出卓越的适应性与灵活性——在未见过的摄像头参数条件下仍能保持高性能，可有效利用具有不同摄像头参数的多个数据集，并支持跨数据集的联合多任务学习。相关代码已公开，可供复现：https://github.com/liufanfanlff/RoboUniview。