
摘要
Transformer模型凭借其在大规模数据集上的可扩展性,彻底革新了视觉与自然语言处理领域。然而,在机器人操作任务中,数据既稀缺又昂贵。在恰当的问题建模下,机器人操作是否仍能从Transformer架构中获益?为此,我们提出了PerAct——一种基于语言条件的多任务6自由度(6-DoF)操作行为克隆代理。PerAct采用Perceiver Transformer对语言目标和RGB-D体素化观测进行编码,并通过“检测下一个最优体素动作”的方式输出离散动作。与基于2D图像的框架不同,体素化的3D观测与动作空间为学习6-DoF操作提供了强有力的结构先验,从而显著提升了学习效率。基于这一建模方式,我们仅需每项任务少量示范,即可训练一个单一的多任务Transformer,完成18个RLBench任务(共249种变体)以及7个真实世界任务(共18种变体)。实验结果表明,PerAct在一系列桌面操作任务中显著优于无结构化的图像到动作代理以及3D卷积神经网络(3D ConvNet)基线方法。
代码仓库
peract/peract
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-generalization-on-the | PerAct | Average decrease average across all perturbations: -17.3 |
| robot-manipulation-on-rlbench | Image-BC CNN | Input Image Size: 128 Succ. Rate (18 tasks, 100 demo/task): 1.3 |
| robot-manipulation-on-rlbench | PerAct (Evaluated in RVT) | Inference Speed (fps): 4.9 Input Image Size: 128 Succ. Rate (18 tasks, 100 demo/task): 49.4 Training Time: 16 |
| robot-manipulation-on-rlbench | PerAct | Input Image Size: 128 Succ. Rate (18 tasks, 100 demo/task): 42.7 Training Time: 16 |
| robot-manipulation-on-rlbench | Image-BC VIT | Input Image Size: 128 Succ. Rate (18 tasks, 100 demo/task): 1.3 |