3 个月前

优势加权回归:简单且可扩展的离策略强化学习

优势加权回归:简单且可扩展的离策略强化学习

摘要

本文旨在提出一种简单且可扩展的强化学习算法,该算法将标准的监督学习方法作为其子程序。我们的目标是设计一种仅使用简单且收敛的极大似然损失函数的算法,同时能够有效利用离策略(off-policy)数据。我们提出的方案称为优势加权回归(Advantage-Weighted Regression, AWR),其核心由两个标准的监督学习步骤构成:第一步是针对价值函数的目标值进行回归;第二步则是对策略的加权目标动作进行回归。该方法简洁通用,适用于连续动作与离散动作场景,且仅需在标准监督学习框架上添加少量代码即可实现。本文为AWR提供了理论依据,并分析了其在结合经验回放(experience replay)中离策略数据时的性质。我们在一系列标准的OpenAI Gym基准任务上对AWR进行了评估,结果表明,其性能可与多种成熟的先进强化学习算法相媲美。尤其值得注意的是,当仅从静态数据集学习而无需额外与环境交互时,AWR在获取更优策略方面显著优于大多数现有离策略算法。此外,我们还将该算法应用于具有高度复杂模拟角色的挑战性连续控制任务中,进一步验证了其有效性与实用性。

代码仓库

nvlabs/gbrl_sb3
pytorch
GitHub 中提及
peisuke/awr
GitHub 中提及
fomorians-oss/awr
tf
GitHub 中提及
google/trax
jax
GitHub 中提及

基准测试

基准方法指标
openai-gym-on-ant-v2AWR
Mean Reward: 5067
openai-gym-on-halfcheetah-v2AWR
Mean Reward: 9136
openai-gym-on-hopper-v2AWR
Mean Reward: 3405
openai-gym-on-humanoid-v2AWR
Average Return: 4996
openai-gym-on-lunarlander-v2AWR
Average Return: 229
openai-gym-on-walker2d-v2AWR
Mean Reward: 5813

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
优势加权回归:简单且可扩展的离策略强化学习 | 论文 | HyperAI超神经