6 个月前

摘要

三维感知表征在机器人操作任务中表现出色，因其能够自然地编码遮挡信息，并简化空间推理过程。许多操作任务要求末端执行器位姿预测具备高空间精度，这通常需要高分辨率的三维特征网格，而这类网格的计算成本较高。因此，当前大多数操作策略直接在二维空间中运行，放弃了三维归纳偏置的优势。本文提出了一种名为Act3D的操作策略Transformer，该模型通过一种自适应分辨率的三维特征场来表征机器人的工作空间，其分辨率根据具体任务动态调整。该模型利用感知到的深度信息，将预训练的二维特征提升至三维空间，并通过注意力机制对这些三维特征进行计算，以生成采样三维点的特征表示。Act3D采用从粗到细的策略采样三维点网格，利用相对位置注意力机制对点进行特征化，并决定下一阶段采样应聚焦的位置。由此，模型能够高效地生成高空间分辨率的三维动作映射。在RL-Bench——一个广泛认可的操作任务基准测试平台——上，Act3D取得了新的最先进性能：在74个RLBench任务中，相较于先前的最先进二维多视角策略，实现了10%的绝对性能提升；相较于先前的最先进三维策略，性能提升达22%，同时仅需其三分之一的计算资源。我们通过消融实验量化了相对空间注意力机制、大规模视觉-语言预训练二维主干网络，以及粗到细注意力之间权重共享的重要性。相关代码与演示视频已发布于项目主页：https://act3d.github.io/。

源 PDF