4 个月前

解决演员-评论家方法中的函数逼近误差

解决演员-评论家方法中的函数逼近误差

摘要

在基于价值的强化学习方法中,如深度Q学习,函数逼近误差已知会导致价值估计过高和次优策略。我们证明了这一问题在演员-评论家(actor-critic)框架中仍然存在,并提出了新的机制以最小化其对演员和评论家的影响。我们的算法基于双Q学习(Double Q-learning),通过取一对评论家之间的最小值来限制过估计。我们探讨了目标网络与过估计偏差之间的联系,并建议延迟策略更新以减少每次更新的误差并进一步提升性能。我们在OpenAI Gym任务套件上评估了我们的方法,在所有测试环境中均超越了现有最先进水平。

代码仓库

arrival-ltd/catalyst-rl-tutorial
pytorch
GitHub 中提及
baturaysaglam/la3p
pytorch
GitHub 中提及
CharlotteMorrison/Baxter-Research
pytorch
GitHub 中提及
jyqhahah/rl_maddpg_matd3
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
kairproject/kair_algorithms_draft
pytorch
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
markub3327/rl-agent
tf
GitHub 中提及
VasaKiDD/TD3-deep-rl-research
pytorch
GitHub 中提及
core-robotics-lab/icct
pytorch
GitHub 中提及
b06b01073/Twin-Delayed-DDPG
pytorch
GitHub 中提及
flowersteam/rl_stats
GitHub 中提及
DanielTakeshi/DCUR
pytorch
GitHub 中提及
ollenilsson19/MAP-Elites-GAPG
pytorch
GitHub 中提及
ollenilsson19/PGA-MAP-Elites
pytorch
GitHub 中提及
yydsok/oparl
pytorch
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
sfujim/TD3
官方
pytorch
GitHub 中提及
fiorenza2/OffCon3
pytorch
GitHub 中提及
Zartris/TD3_continuous_control
pytorch
GitHub 中提及
araffin/sbx
jax
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
coreylowman/rl_simply
pytorch
GitHub 中提及
georgesung/TD3
pytorch
GitHub 中提及
crazyleg/TD3-reacher
pytorch
GitHub 中提及
CharlotteMorrison/Baxter-VREP
pytorch
GitHub 中提及
rshnn/battleship
GitHub 中提及
patrickhart/jaxdl
jax
GitHub 中提及
soumik12345/Twin-Delayed-DDPG
pytorch
GitHub 中提及
markub3327/rl-toolkit
tf
GitHub 中提及
andrejorsula/drl_grasping
pytorch
GitHub 中提及
andreidi/AC_DDPG_walker
tf
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
claudeHifly/BipedalWalker-v3
pytorch
GitHub 中提及
baturaysaglam/dase
pytorch
GitHub 中提及
reiniscimurs/TD3_Separate_Action
pytorch
GitHub 中提及
baturaysaglam/ac-off-poc
pytorch
GitHub 中提及
yifan12wu/td3-jax
jax
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
markub3327/rl-baselines
tf
GitHub 中提及
ccolas/rl_stats
GitHub 中提及
pkasala/ContinuesControl
pytorch
GitHub 中提及

基准测试

基准方法指标
continuous-control-on-lunar-lander-openai-gymTD3
Score: 277.26±4.17
openai-gym-on-ant-v4TD3
Average Return: 5942.55
openai-gym-on-halfcheetah-v4TD3
Average Return: 12026.73
openai-gym-on-hopper-v4TD3
Average Return: 3319.98
openai-gym-on-humanoid-v4TD3
Average Return: 198.44
openai-gym-on-walker2d-v4TD3
Average Return: 2612.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
解决演员-评论家方法中的函数逼近误差 | 论文 | HyperAI超神经