3 个月前

Perceiver-Actor:一种用于机器人操作的多任务Transformer

Perceiver-Actor:一种用于机器人操作的多任务Transformer

摘要

Transformer模型凭借其在大规模数据集上的可扩展性,彻底革新了视觉与自然语言处理领域。然而,在机器人操作任务中,数据既稀缺又昂贵。在恰当的问题建模下,机器人操作是否仍能从Transformer架构中获益?为此,我们提出了PerAct——一种基于语言条件的多任务6自由度(6-DoF)操作行为克隆代理。PerAct采用Perceiver Transformer对语言目标和RGB-D体素化观测进行编码,并通过“检测下一个最优体素动作”的方式输出离散动作。与基于2D图像的框架不同,体素化的3D观测与动作空间为学习6-DoF操作提供了强有力的结构先验,从而显著提升了学习效率。基于这一建模方式,我们仅需每项任务少量示范,即可训练一个单一的多任务Transformer,完成18个RLBench任务(共249种变体)以及7个真实世界任务(共18种变体)。实验结果表明,PerAct在一系列桌面操作任务中显著优于无结构化的图像到动作代理以及3D卷积神经网络(3D ConvNet)基线方法。

代码仓库

peract/peract
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
robot-manipulation-generalization-on-thePerAct
Average decrease average across all perturbations: -17.3
robot-manipulation-on-rlbenchImage-BC CNN
Input Image Size: 128
Succ. Rate (18 tasks, 100 demo/task): 1.3
robot-manipulation-on-rlbenchPerAct (Evaluated in RVT)
Inference Speed (fps): 4.9
Input Image Size: 128
Succ. Rate (18 tasks, 100 demo/task): 49.4
Training Time: 16
robot-manipulation-on-rlbenchPerAct
Input Image Size: 128
Succ. Rate (18 tasks, 100 demo/task): 42.7
Training Time: 16
robot-manipulation-on-rlbenchImage-BC VIT
Input Image Size: 128
Succ. Rate (18 tasks, 100 demo/task): 1.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Perceiver-Actor:一种用于机器人操作的多任务Transformer | 论文 | HyperAI超神经