
摘要
我们提出一种从粗到细的离散化方法,使在连续机器人领域中能够使用稳定的离散强化学习方法,替代传统不稳定且数据效率低下的Actor-Critic方法。该方法基于近期发布的ARM算法,该算法将连续的“最优下一步位姿”智能体替换为离散智能体,并引入从粗到细的Q-注意力机制。给定一个体素化场景,从粗到细的Q-注意力机制能够学习场景中需要“聚焦”(zoom into)的部分。当这种“聚焦”行为被迭代应用时,可实现对平移空间的近乎无损的离散化,从而支持采用离散动作、深度Q学习的方法进行训练。实验表明,我们提出的新型从粗到细算法在多个具有挑战性的稀疏奖励RLBench视觉机器人任务上达到了当前最优性能,并可在仅需3次示范的情况下,仅用数分钟时间即可训练出可直接应用于真实世界的策略,实现从零开始(tabula rasa)的端到端学习。
代码仓库
stepjam/ARM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-on-rlbench | C2FARM-BC (Evaluated in PerAct) | Input Image Size: 128 Succ. Rate (18 tasks, 100 demo/task): 20.1 |