4 个月前

基于最大熵的强化学习通过能量基归一化流实现

基于最大熵的强化学习通过能量基归一化流实现

摘要

现有的连续动作空间最大熵(MaxEnt)强化学习(RL)方法通常基于行为者-评论家框架,并通过交替进行策略评估和策略改进步骤来优化。在策略评估步骤中,评论家被更新以捕捉软Q函数。在策略改进步骤中,行为者根据更新后的软Q函数进行调整。本文介绍了一种新的基于能量基归一化流(EBFlow)的最大熵强化学习框架。该框架整合了策略评估步骤和策略改进步骤,形成了单一目标的训练过程。我们的方法能够在无需蒙特卡洛近似的情况下计算用于策略评估目标的软价值函数。此外,这种设计支持多模态动作分布的建模,同时便于高效的动作采样。为了评估我们方法的性能,我们在MuJoCo基准套件和由Omniverse Isaac Gym模拟的一系列高维机器人任务上进行了实验。评估结果表明,我们的方法相比广泛采用的代表性基线方法具有更优的性能。

代码仓库

ChienFeng-hub/meow
官方
jax
GitHub 中提及

基准测试

基准方法指标
omniverse-isaac-gym-on-allegrohandMEow
Average Return: 620.04
omniverse-isaac-gym-on-antMEow
Average Return: 7832.01
omniverse-isaac-gym-on-anymalMEow
Average Return: 47.62
omniverse-isaac-gym-on-frankacabinetMEow
Average Return: 3155.92
omniverse-isaac-gym-on-humanoidMEow
Average Return: 4659.92
omniverse-isaac-gym-on-ingenuityMEow
Average Return: 5270.40
openai-gym-on-ant-v4MEow
Average Return: 6586.33
openai-gym-on-halfcheetah-v4MEow
Average Return: 10981.47
openai-gym-on-hopper-v4MEow
Average Return: 3332.99
openai-gym-on-humanoid-v4MEow
Average Return: 6923.22
openai-gym-on-walker2d-v4MEow
Average Return: 5526.66

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于最大熵的强化学习通过能量基归一化流实现 | 论文 | HyperAI超神经