4 个月前

PolarNet:用于语言引导的机器人操作的3D点云

PolarNet:用于语言引导的机器人操作的3D点云

摘要

机器人根据自然语言指令理解和执行操作任务的能力是机器人领域的长期目标。目前,语言引导操作的主要方法依赖于2D图像表示,这些方法在结合多视角摄像头和推断精确的3D位置及关系方面存在困难。为了解决这些问题,我们提出了一种基于3D点云的策略——PolarNet,用于语言引导的操作任务。该策略利用精心设计的点云输入、高效的点云编码器以及多模态变压器来学习3D点云表示,并将其与语言指令相结合以预测动作。在RLBench基准上进行的一系列实验表明,PolarNet不仅有效且数据效率高。无论是在单任务学习还是多任务学习中,PolarNet均优于现有的2D和3D方法,并在实际机器人上的测试中取得了令人鼓舞的结果。

代码仓库

vlc-robot/polarnet
官方
pytorch

基准测试

基准方法指标
robot-manipulation-generalization-on-gembenchPolarNet
Average Success Rate: 38.4
Average Success Rate (L1): 77.7±0.9
Average Success Rate (L2): 37.1±1.4
Average Success Rate (L3): 38.5±1.7
Average Success Rate (L4): 0.1±0.2
robot-manipulation-on-rlbenchPolarNet
Input Image Size: 128
Succ. Rate (10 tasks, 100 demos/task): 89.8
Succ. Rate (18 tasks, 100 demo/task): 46.4
Succ. Rate (74 tasks, 100 demos/task): 60.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PolarNet:用于语言引导的机器人操作的3D点云 | 论文 | HyperAI超神经