4 个月前

软演员评论家:基于随机演员的离策略最大熵深度强化学习

软演员评论家:基于随机演员的离策略最大熵深度强化学习

摘要

无模型的深度强化学习(RL)算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而,这些方法通常面临两个主要问题:极高的样本复杂度和脆弱的收敛特性,这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中,我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法(Soft Actor-Critic)。在这个框架下,演员不仅旨在最大化预期奖励,还力求最大化熵。也就是说,在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法,我们的方法在一系列连续控制基准任务上实现了最先进的性能,超越了先前的策略内和策略外的方法。此外,我们证明了与其他离策略算法相比,我们的方法非常稳定,在不同的随机种子下能够实现非常相似的性能。

代码仓库

baturaysaglam/la3p
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
kairproject/kair_algorithms_draft
pytorch
GitHub 中提及
ku2482/rljax
jax
GitHub 中提及
ShawK91/erl_paper_nips18
pytorch
GitHub 中提及
Kaixhin/imitation-learning
pytorch
GitHub 中提及
dasgringuen/assetto_corsa_gym
pytorch
GitHub 中提及
kushagra06/SAC
pytorch
GitHub 中提及
timoklein/car_racer
pytorch
GitHub 中提及
polixir/NeoRL
GitHub 中提及
core-robotics-lab/icct
pytorch
GitHub 中提及
tmjeong1103/RL_with_RAY
pytorch
GitHub 中提及
flowersteam/rl_stats
GitHub 中提及
gijskoning/ReproducingCURL
pytorch
GitHub 中提及
AmmarFayad/Behavioral-Actor-Critic
pytorch
GitHub 中提及
ajaysub110/rl-pytorch
pytorch
GitHub 中提及
ac-93/soft-actor-critic
tf
GitHub 中提及
Steinheilig/Imbiss
GitHub 中提及
araffin/sbx
jax
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
lollcat/Soft-Actor-Critic
tf
GitHub 中提及
tarod13/SAC
pytorch
GitHub 中提及
hyunin-lee/ForecasterSAC
pytorch
GitHub 中提及
ku2482/soft-actor-critic.pytorch
pytorch
GitHub 中提及
rk1998/robot-sac
tf
GitHub 中提及
lanqingli1993/focal-iclr
pytorch
GitHub 中提及
haarnoja/sac
官方
tf
GitHub 中提及
nagisazj/idaq_public
GitHub 中提及
ikostrikov/jax-rl
jax
GitHub 中提及
ku2482/gail-airl-ppo.pytorch
pytorch
GitHub 中提及
X3N4/car_racer
pytorch
GitHub 中提及
toshikwa/discor.pytorch
pytorch
GitHub 中提及
RLAgent/state-marginal-matching
pytorch
GitHub 中提及
donamin/llc
tf
GitHub 中提及
pranz24/pytorch-soft-actor-critic
pytorch
GitHub 中提及
cindycia/Atari-SAC-Discrete
pytorch
GitHub 中提及
sunfex/weighted-sac
pytorch
GitHub 中提及
andrejorsula/drl_grasping
pytorch
GitHub 中提及
FOCAL-ICLR/FOCAL-ICLR
pytorch
GitHub 中提及
roythuly/obac
pytorch
GitHub 中提及
learn-to-race/l2r
GitHub 中提及
garyzyr001/rethinking-airl
pytorch
GitHub 中提及
lucadellalib/sac-beta
pytorch
GitHub 中提及
yining043/SAC-discrete
tf
GitHub 中提及
ku2482/discor.pytorch
pytorch
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
toshikwa/soft-actor-critic.pytorch
pytorch
GitHub 中提及
h-aboutalebi/SparceReward
pytorch
GitHub 中提及
tliu1997/rnac
pytorch
GitHub 中提及
trackmania-rl/tmrl
pytorch
GitHub 中提及
mxblr/DeepRLHockey
tf
GitHub 中提及
moreanp/csro
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
ku2482/rltorch
pytorch
GitHub 中提及
thomashirtz/soft-actor-critic
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
yhisaki/average-reward-drl
pytorch
GitHub 中提及
ccolas/rl_stats
GitHub 中提及
yimingpeng/sac-master
tf
GitHub 中提及
MarsEleven/car_racer_RL
pytorch
GitHub 中提及
susan-amin/SparseBaseline1
pytorch
GitHub 中提及

基准测试

基准方法指标
continuous-control-on-lunar-lander-openai-gymSAC
Score: 284.59±0.97
omniverse-isaac-gym-on-allegrohandSAC
Average Return: 296.49
omniverse-isaac-gym-on-antSAC
Average Return: 7717.93
omniverse-isaac-gym-on-anymalSAC
Average Return: 11.87
omniverse-isaac-gym-on-frankacabinetSAC
Average Return: 1721.98
omniverse-isaac-gym-on-humanoidSAC
Average Return: 4028.31
omniverse-isaac-gym-on-ingenuitySAC
Average Return: 5301.99
openai-gym-on-ant-v4SAC
Average Return: 5208.09
openai-gym-on-halfcheetah-v4SAC
Average Return: 15836.04
openai-gym-on-hopper-v4SAC
Average Return: 2882.56
openai-gym-on-humanoid-v4SAC
Average Return: 6211.50
openai-gym-on-walker2d-v4SAC
Average Return: 5745.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
软演员评论家:基于随机演员的离策略最大熵深度强化学习 | 论文 | HyperAI超神经