3 个月前

从离线人类示范中学习机器人操作的关键因素

从离线人类示范中学习机器人操作的关键因素

摘要

模仿人类示范是一种极具前景的方法,可用于赋予机器人多样化的操作能力。尽管近年来在模仿学习与批量(离线)强化学习方面取得了显著进展,但由于缺乏开源的人类数据集以及可复现的学习方法,当前对领域发展水平的评估仍面临困难。本文针对五种模拟任务与三种真实世界多阶段操作任务(涵盖不同复杂度),系统研究了六种离线学习算法在不同质量数据集上的表现。研究深入分析了从离线人类示范数据中学习操作技能所面临的最关键挑战。基于研究结果,我们总结出一系列重要经验:算法设计选择对性能具有高度敏感性,模型表现严重依赖示范数据的质量,且由于训练与评估目标不一致,不同终止条件带来的结果变异性显著。此外,我们还指出了利用人类数据集开展学习的潜在机遇,例如:在当前强化学习方法难以应对的复杂、多阶段任务上,仍可学习到高效的操作策略;同时,该方法能够轻松扩展至仅依赖原始感官信号的真实世界操作场景。为推动后续研究并促进公平比较,我们已将所有数据集及算法实现开源。代码库、数据集、训练好的模型等资源详见:https://arise-initiative.github.io/robomimic-web/

代码仓库

ARISE-Initiative/robomimic
pytorch
GitHub 中提及

基准测试

基准方法指标
robot-manipulation-on-mimicgenBC RNN (Evaluated in EquiDiff)
Succ. Rate (12 tasks, 100 demo/task): 22.9
Succ. Rate (12 tasks, 1000 demo/task): 70.3
Succ. Rate (12 tasks, 200 demo/task): 41.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供