摘要

模仿人类示范是一种极具前景的方法，可用于赋予机器人多样化的操作能力。尽管近年来在模仿学习与批量（离线）强化学习方面取得了显著进展，但由于缺乏开源的人类数据集以及可复现的学习方法，当前对领域发展水平的评估仍面临困难。本文针对五种模拟任务与三种真实世界多阶段操作任务（涵盖不同复杂度），系统研究了六种离线学习算法在不同质量数据集上的表现。研究深入分析了从离线人类示范数据中学习操作技能所面临的最关键挑战。基于研究结果，我们总结出一系列重要经验：算法设计选择对性能具有高度敏感性，模型表现严重依赖示范数据的质量，且由于训练与评估目标不一致，不同终止条件带来的结果变异性显著。此外，我们还指出了利用人类数据集开展学习的潜在机遇，例如：在当前强化学习方法难以应对的复杂、多阶段任务上，仍可学习到高效的操作策略；同时，该方法能够轻松扩展至仅依赖原始感官信号的真实世界操作场景。为推动后续研究并促进公平比较，我们已将所有数据集及算法实现开源。代码库、数据集、训练好的模型等资源详见：https://arise-initiative.github.io/robomimic-web/

源 PDF