
摘要
在基于价值的强化学习方法中,如深度Q学习,函数逼近误差已知会导致价值估计过高和次优策略。我们证明了这一问题在演员-评论家(actor-critic)框架中仍然存在,并提出了新的机制以最小化其对演员和评论家的影响。我们的算法基于双Q学习(Double Q-learning),通过取一对评论家之间的最小值来限制过估计。我们探讨了目标网络与过估计偏差之间的联系,并建议延迟策略更新以减少每次更新的误差并进一步提升性能。我们在OpenAI Gym任务套件上评估了我们的方法,在所有测试环境中均超越了现有最先进水平。
代码仓库
arrival-ltd/catalyst-rl-tutorial
pytorch
GitHub 中提及
baturaysaglam/la3p
pytorch
GitHub 中提及
quantumiracle/Popular-RL-Algorithms
pytorch
GitHub 中提及
CharlotteMorrison/Baxter-Research
pytorch
GitHub 中提及
jyqhahah/rl_maddpg_matd3
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
kairproject/kair_algorithms_draft
pytorch
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
toni-sm/skrl
jax
markub3327/rl-agent
tf
GitHub 中提及
VasaKiDD/TD3-deep-rl-research
pytorch
GitHub 中提及
MrSyee/pg-is-all-you-need
GitHub 中提及
Rafael1s/Deep-Reinforcement-Learning-Udacity
pytorch
GitHub 中提及
core-robotics-lab/icct
pytorch
GitHub 中提及
b06b01073/Twin-Delayed-DDPG
pytorch
GitHub 中提及
flowersteam/rl_stats
GitHub 中提及
DanielTakeshi/DCUR
pytorch
GitHub 中提及
mindspore-courses/Deep-Reinforcement-Learning-Algorithms-with-MindSpore
mindspore
GitHub 中提及
ollenilsson19/MAP-Elites-GAPG
pytorch
GitHub 中提及
ollenilsson19/PGA-MAP-Elites
pytorch
GitHub 中提及
yydsok/oparl
pytorch
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
sfujim/TD3
官方
pytorch
GitHub 中提及
fiorenza2/OffCon3
pytorch
GitHub 中提及
Zartris/TD3_continuous_control
pytorch
GitHub 中提及
araffin/sbx
jax
GitHub 中提及
nikhilbarhate99/TD3-PyTorch-BipedalWalker-v2
pytorch
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
JohannesAck/MATD3implementation
tf
GitHub 中提及
GhadaSokar/Dynamic-Sparse-Training-for-Deep-Reinforcement-Learning
pytorch
GitHub 中提及
robintyh1/icml2021-pengqlambda
tf
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
coreylowman/rl_simply
pytorch
GitHub 中提及
georgesung/TD3
pytorch
GitHub 中提及
crazyleg/TD3-reacher
pytorch
GitHub 中提及
CharlotteMorrison/Baxter-VREP
pytorch
GitHub 中提及
rshnn/battleship
GitHub 中提及
seungju-k1m/sac-td3-td7
pytorch
patrickhart/jaxdl
jax
GitHub 中提及
GauravPatel89/Car-Navigation-Simulation-using-TD3
pytorch
GitHub 中提及
soumik12345/Twin-Delayed-DDPG
pytorch
GitHub 中提及
markub3327/rl-toolkit
tf
GitHub 中提及
andrejorsula/drl_grasping
pytorch
GitHub 中提及
intelligent-environments-lab/CityLearn
tf
GitHub 中提及
CharlotteMorrison/Baxter-VREP-Version-2
pytorch
GitHub 中提及
andreidi/AC_DDPG_walker
tf
GitHub 中提及
jaem-seo/AI_tokamak_control
GitHub 中提及
ashaaher/Reinforcement-Learning-Project
pytorch
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
SeungeonBaek/continuous-agents-test
tf
GitHub 中提及
claudeHifly/BipedalWalker-v3
pytorch
GitHub 中提及
baturaysaglam/dase
pytorch
GitHub 中提及
adaptive-intelligent-robotics/pga-map-elites
pytorch
GitHub 中提及
reiniscimurs/TD3_Separate_Action
pytorch
GitHub 中提及
baturaysaglam/ac-off-poc
pytorch
GitHub 中提及
yifan12wu/td3-jax
jax
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
markub3327/rl-baselines
tf
GitHub 中提及
ccolas/rl_stats
GitHub 中提及
DLR-RM/stable-baselines3
pytorch
pkasala/ContinuesControl
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | TD3 | Score: 277.26±4.17 |
| openai-gym-on-ant-v4 | TD3 | Average Return: 5942.55 |
| openai-gym-on-halfcheetah-v4 | TD3 | Average Return: 12026.73 |
| openai-gym-on-hopper-v4 | TD3 | Average Return: 3319.98 |
| openai-gym-on-humanoid-v4 | TD3 | Average Return: 198.44 |
| openai-gym-on-walker2d-v4 | TD3 | Average Return: 2612.74 |