
摘要
无模型的深度强化学习(RL)算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而,这些方法通常面临两个主要问题:极高的样本复杂度和脆弱的收敛特性,这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中,我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法(Soft Actor-Critic)。在这个框架下,演员不仅旨在最大化预期奖励,还力求最大化熵。也就是说,在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法,我们的方法在一系列连续控制基准任务上实现了最先进的性能,超越了先前的策略内和策略外的方法。此外,我们证明了与其他离策略算法相比,我们的方法非常稳定,在不同的随机种子下能够实现非常相似的性能。
代码仓库
baturaysaglam/la3p
pytorch
GitHub 中提及
quantumiracle/Popular-RL-Algorithms
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
kairproject/kair_algorithms_draft
pytorch
GitHub 中提及
ku2482/rljax
jax
GitHub 中提及
ShawK91/erl_paper_nips18
pytorch
GitHub 中提及
toni-sm/skrl
jax
Kaixhin/imitation-learning
pytorch
GitHub 中提及
dasgringuen/assetto_corsa_gym
pytorch
GitHub 中提及
watchernyu/spinningup-drl-prototyping
tf
GitHub 中提及
kushagra06/SAC
pytorch
GitHub 中提及
timoklein/car_racer
pytorch
GitHub 中提及
MrSyee/pg-is-all-you-need
GitHub 中提及
Rafael1s/Deep-Reinforcement-Learning-Udacity
pytorch
GitHub 中提及
polixir/NeoRL
GitHub 中提及
core-robotics-lab/icct
pytorch
GitHub 中提及
tmjeong1103/RL_with_RAY
pytorch
GitHub 中提及
flowersteam/rl_stats
GitHub 中提及
thomashirtz/pytorch-soft-actor-critic
pytorch
GitHub 中提及
gijskoning/ReproducingCURL
pytorch
GitHub 中提及
ShawK91/Evolutionary-Reinforcement-Learning
pytorch
GitHub 中提及
AutumnWu/Streamlined-Off-Policy-Learning
tf
GitHub 中提及
AmmarFayad/Behavioral-Actor-Critic
pytorch
GitHub 中提及
ajaysub110/rl-pytorch
pytorch
GitHub 中提及
ac-93/soft-actor-critic
tf
GitHub 中提及
Steinheilig/Imbiss
GitHub 中提及
kdally/fault-tolerant-flight-control-drl
GitHub 中提及
Ipsedo/EvoMotion
pytorch
araffin/sbx
jax
GitHub 中提及
autumnwu/aggressive-q-learning-with-ensembles
tf
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
lollcat/Soft-Actor-Critic
tf
GitHub 中提及
tarod13/SAC
pytorch
GitHub 中提及
hyunin-lee/ForecasterSAC
pytorch
GitHub 中提及
ku2482/soft-actor-critic.pytorch
pytorch
GitHub 中提及
rk1998/robot-sac
tf
GitHub 中提及
lanqingli1993/focal-iclr
pytorch
GitHub 中提及
haarnoja/sac
官方
tf
GitHub 中提及
nagisazj/idaq_public
GitHub 中提及
seungju-k1m/sac-td3-td7
pytorch
ikostrikov/jax-rl
jax
GitHub 中提及
ku2482/gail-airl-ppo.pytorch
pytorch
GitHub 中提及
X3N4/car_racer
pytorch
GitHub 中提及
toshikwa/discor.pytorch
pytorch
GitHub 中提及
RLAgent/state-marginal-matching
pytorch
GitHub 中提及
donamin/llc
tf
GitHub 中提及
pranz24/pytorch-soft-actor-critic
pytorch
GitHub 中提及
cindycia/Atari-SAC-Discrete
pytorch
GitHub 中提及
sunfex/weighted-sac
pytorch
GitHub 中提及
andrejorsula/drl_grasping
pytorch
GitHub 中提及
FOCAL-ICLR/FOCAL-ICLR
pytorch
GitHub 中提及
roythuly/obac
pytorch
GitHub 中提及
learn-to-race/l2r
GitHub 中提及
garyzyr001/rethinking-airl
pytorch
GitHub 中提及
lucadellalib/sac-beta
pytorch
GitHub 中提及
QuentinVacher-rl/SoftActorCritic-in-Cpp-using-LibTorch
pytorch
GitHub 中提及
yining043/SAC-discrete
tf
GitHub 中提及
ku2482/discor.pytorch
pytorch
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
toshikwa/soft-actor-critic.pytorch
pytorch
GitHub 中提及
h-aboutalebi/SparceReward
pytorch
GitHub 中提及
tliu1997/rnac
pytorch
GitHub 中提及
trackmania-rl/tmrl
pytorch
GitHub 中提及
mxblr/DeepRLHockey
tf
GitHub 中提及
moreanp/csro
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
ku2482/rltorch
pytorch
GitHub 中提及
thomashirtz/soft-actor-critic
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
yhisaki/average-reward-drl
pytorch
GitHub 中提及
ccolas/rl_stats
GitHub 中提及
DLR-RM/stable-baselines3
pytorch
yimingpeng/sac-master
tf
GitHub 中提及
MarsEleven/car_racer_RL
pytorch
GitHub 中提及
susan-amin/SparseBaseline1
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | SAC | Score: 284.59±0.97 |
| omniverse-isaac-gym-on-allegrohand | SAC | Average Return: 296.49 |
| omniverse-isaac-gym-on-ant | SAC | Average Return: 7717.93 |
| omniverse-isaac-gym-on-anymal | SAC | Average Return: 11.87 |
| omniverse-isaac-gym-on-frankacabinet | SAC | Average Return: 1721.98 |
| omniverse-isaac-gym-on-humanoid | SAC | Average Return: 4028.31 |
| omniverse-isaac-gym-on-ingenuity | SAC | Average Return: 5301.99 |
| openai-gym-on-ant-v4 | SAC | Average Return: 5208.09 |
| openai-gym-on-halfcheetah-v4 | SAC | Average Return: 15836.04 |
| openai-gym-on-hopper-v4 | SAC | Average Return: 2882.56 |
| openai-gym-on-humanoid-v4 | SAC | Average Return: 6211.50 |
| openai-gym-on-walker2d-v4 | SAC | Average Return: 5745.27 |