3 个月前

Act3D:用于多任务机器人操作的3D特征场Transformer

Act3D:用于多任务机器人操作的3D特征场Transformer

摘要

三维感知表征在机器人操作任务中表现出色,因其能够自然地编码遮挡信息,并简化空间推理过程。许多操作任务要求末端执行器位姿预测具备高空间精度,这通常需要高分辨率的三维特征网格,而这类网格的计算成本较高。因此,当前大多数操作策略直接在二维空间中运行,放弃了三维归纳偏置的优势。本文提出了一种名为Act3D的操作策略Transformer,该模型通过一种自适应分辨率的三维特征场来表征机器人的工作空间,其分辨率根据具体任务动态调整。该模型利用感知到的深度信息,将预训练的二维特征提升至三维空间,并通过注意力机制对这些三维特征进行计算,以生成采样三维点的特征表示。Act3D采用从粗到细的策略采样三维点网格,利用相对位置注意力机制对点进行特征化,并决定下一阶段采样应聚焦的位置。由此,模型能够高效地生成高空间分辨率的三维动作映射。在RL-Bench——一个广泛认可的操作任务基准测试平台——上,Act3D取得了新的最先进性能:在74个RLBench任务中,相较于先前的最先进二维多视角策略,实现了10%的绝对性能提升;相较于先前的最先进三维策略,性能提升达22%,同时仅需其三分之一的计算资源。我们通过消融实验量化了相对空间注意力机制、大规模视觉-语言预训练二维主干网络,以及粗到细注意力之间权重共享的重要性。相关代码与演示视频已发布于项目主页:https://act3d.github.io/。

代码仓库

基准测试

基准方法指标
robot-manipulation-on-rlbenchAct3D
Input Image Size: 256
Succ. Rate (18 tasks, 100 demo/task): 65
Training Time: 5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Act3D:用于多任务机器人操作的3D特征场Transformer | 论文 | HyperAI超神经