
摘要
现有的连续动作空间最大熵(MaxEnt)强化学习(RL)方法通常基于行为者-评论家框架,并通过交替进行策略评估和策略改进步骤来优化。在策略评估步骤中,评论家被更新以捕捉软Q函数。在策略改进步骤中,行为者根据更新后的软Q函数进行调整。本文介绍了一种新的基于能量基归一化流(EBFlow)的最大熵强化学习框架。该框架整合了策略评估步骤和策略改进步骤,形成了单一目标的训练过程。我们的方法能够在无需蒙特卡洛近似的情况下计算用于策略评估目标的软价值函数。此外,这种设计支持多模态动作分布的建模,同时便于高效的动作采样。为了评估我们方法的性能,我们在MuJoCo基准套件和由Omniverse Isaac Gym模拟的一系列高维机器人任务上进行了实验。评估结果表明,我们的方法相比广泛采用的代表性基线方法具有更优的性能。
代码仓库
ChienFeng-hub/meow
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| omniverse-isaac-gym-on-allegrohand | MEow | Average Return: 620.04 |
| omniverse-isaac-gym-on-ant | MEow | Average Return: 7832.01 |
| omniverse-isaac-gym-on-anymal | MEow | Average Return: 47.62 |
| omniverse-isaac-gym-on-frankacabinet | MEow | Average Return: 3155.92 |
| omniverse-isaac-gym-on-humanoid | MEow | Average Return: 4659.92 |
| omniverse-isaac-gym-on-ingenuity | MEow | Average Return: 5270.40 |
| openai-gym-on-ant-v4 | MEow | Average Return: 6586.33 |
| openai-gym-on-halfcheetah-v4 | MEow | Average Return: 10981.47 |
| openai-gym-on-hopper-v4 | MEow | Average Return: 3332.99 |
| openai-gym-on-humanoid-v4 | MEow | Average Return: 6923.22 |
| openai-gym-on-walker2d-v4 | MEow | Average Return: 5526.66 |