3 个月前

Meta-World:多任务与元强化学习的基准测试与评估

Meta-World:多任务与元强化学习的基准测试与评估

摘要

元强化学习算法可通过利用先前经验来学习如何学习,从而显著加快机器人掌握新技能的速度。然而,当前大多数元强化学习研究集中于任务分布极为狭窄的情形。例如,常用的元强化学习基准测试中,将模拟机器人以不同跑步速度运行作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,其根本无法泛化至快速习得完全全新的任务。因此,若这些方法的目标在于实现对全新行为的快速获取,就必须在足够宽泛的任务分布上进行评估,以确保对新行为具备泛化能力。本文提出一个开源的模拟基准测试平台,用于元强化学习与多任务学习,包含50个不同的机器人操作任务。我们的目标是推动算法的发展,使其能够实现对全新、未见任务的泛化,从而加速新技能的学习。我们在这些任务上评估了7种最先进的元强化学习与多任务学习算法。令人意外的是,尽管每个任务及其变体(如不同物体位置)均可被合理地学习,但这些算法在同时处理多个任务时表现不佳,即便训练任务数量仅有十个左右也是如此。我们的分析结果与开源环境为未来在多任务学习与元学习领域的研究铺平了道路,有助于实现真正有意义的泛化能力,从而充分释放这些方法的潜力。

代码仓库

CAVED123/METAWORLD
GitHub 中提及
uoe-agents/sami
pytorch
GitHub 中提及
yiwc/robotics-world
GitHub 中提及
rlworkgroup/metaworld
官方
GitHub 中提及
avivne/bilinear-transduction
pytorch
GitHub 中提及
mazpie/mime
pytorch
GitHub 中提及

基准测试

基准方法指标
meta-learning-on-ml10RL^2
Meta-test success rate: 10%
Meta-train success rate: 50%
meta-learning-on-ml10PEARL
Meta-test success rate: 0%
Meta-train success rate: 42.78%
meta-learning-on-ml10MAML
Meta-test success rate: 36%
Meta-train success rate: 25%
meta-learning-on-mt50Multi-task multi-head SAC
Average Success Rate: 35.85%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Meta-World:多任务与元强化学习的基准测试与评估 | 论文 | HyperAI超神经