6 个月前

多任务学习

Mohit Shridhar Lucas Manuelli Dieter Fox

摘要

Transformer模型凭借其在大规模数据集上的可扩展性，彻底革新了视觉与自然语言处理领域。然而，在机器人操作任务中，数据既稀缺又昂贵。在恰当的问题建模下，机器人操作是否仍能从Transformer架构中获益？为此，我们提出了PerAct——一种基于语言条件的多任务6自由度（6-DoF）操作行为克隆代理。PerAct采用Perceiver Transformer对语言目标和RGB-D体素化观测进行编码，并通过“检测下一个最优体素动作”的方式输出离散动作。与基于2D图像的框架不同，体素化的3D观测与动作空间为学习6-DoF操作提供了强有力的结构先验，从而显著提升了学习效率。基于这一建模方式，我们仅需每项任务少量示范，即可训练一个单一的多任务Transformer，完成18个RLBench任务（共249种变体）以及7个真实世界任务（共18种变体）。实验结果表明，PerAct在一系列桌面操作任务中显著优于无结构化的图像到动作代理以及3D卷积神经网络（3D ConvNet）基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Mohit Shridhar Lucas Manuelli Dieter Fox

摘要

Transformer模型凭借其在大规模数据集上的可扩展性，彻底革新了视觉与自然语言处理领域。然而，在机器人操作任务中，数据既稀缺又昂贵。在恰当的问题建模下，机器人操作是否仍能从Transformer架构中获益？为此，我们提出了PerAct——一种基于语言条件的多任务6自由度（6-DoF）操作行为克隆代理。PerAct采用Perceiver Transformer对语言目标和RGB-D体素化观测进行编码，并通过“检测下一个最优体素动作”的方式输出离散动作。与基于2D图像的框架不同，体素化的3D观测与动作空间为学习6-DoF操作提供了强有力的结构先验，从而显著提升了学习效率。基于这一建模方式，我们仅需每项任务少量示范，即可训练一个单一的多任务Transformer，完成18个RLBench任务（共249种变体）以及7个真实世界任务（共18种变体）。实验结果表明，PerAct在一系列桌面操作任务中显著优于无结构化的图像到动作代理以及3D卷积神经网络（3D ConvNet）基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供