3 个月前

复杂动作空间中的学习与规划

复杂动作空间中的学习与规划

摘要

许多重要的现实世界问题涉及高维、连续或兼具高维与连续特性的动作空间,导致对所有可能动作进行完整枚举在计算上不可行。因此,通常只能对动作空间的较小子集进行采样,用于策略评估与改进。本文提出一种通用框架,能够以严谨的理论方式对这类采样得到的动作子集进行策略评估与改进。该基于采样的策略迭代框架原则上可应用于任何基于策略迭代的强化学习算法。具体而言,我们提出了“采样版MuZero”(Sampled MuZero),作为MuZero算法的扩展,能够在动作空间任意复杂的环境中通过在采样动作上进行规划来实现学习。我们在经典的围棋(Go)游戏以及两个连续控制基准任务——DeepMind控制套件(DeepMind Control Suite)和真实世界强化学习套件(Real-World RL Suite)上验证了该方法的有效性。

代码仓库

opendilab/LightZero
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
复杂动作空间中的学习与规划 | 论文 | HyperAI超神经