4 个月前

基于深度强化学习的连续控制

基于深度强化学习的连续控制

摘要

我们将深度Q学习成功的背后理念应用于连续动作域。本文介绍了一种基于确定性策略梯度的无模型演员-评论家算法,该算法能够在连续动作空间中运行。使用相同的學習算法、网络架构和超参数,我们的算法稳健地解决了超过20个模拟物理任务,包括经典问题如倒立摆摆动(cartpole swing-up)、灵巧操作、足式运动和汽车驾驶。我们的算法能够找到性能与完全访问领域动态及其导数的规划算法所发现的策略相媲美的策略。此外,我们还证明了对于许多任务,该算法可以进行端到端学习:直接从原始像素输入中学习策略。

代码仓库

IvanVigor/MADDPG-Unity
pytorch
GitHub 中提及
facebookresearch/Horizon
pytorch
GitHub 中提及
b06b01073/continuous-control
pytorch
GitHub 中提及
MathPhysSim/PER-NAF
tf
GitHub 中提及
s-sd/task-amenability
tf
GitHub 中提及
nav74neet/ddpg_biped
tf
GitHub 中提及
YangRui2015/Modular_HER
tf
GitHub 中提及
nav74neet/rl4biped
tf
GitHub 中提及
T3chy/DDPG
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
tegg89/magnn
tf
GitHub 中提及
siyuofzhou/DDPG
tf
GitHub 中提及
abbadka/quadcopter
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
krasing/DRLearningCollaboration
pytorch
GitHub 中提及
Dekki-Aero/DDPG
tf
GitHub 中提及
VasaKiDD/TD3-deep-rl-research
pytorch
GitHub 中提及
AgrawalAmey/safe-explorer
pytorch
GitHub 中提及
dchetelat/acer
pytorch
GitHub 中提及
JonasRSV/PGTensorflow
tf
GitHub 中提及
floodsung/DDPG
tf
GitHub 中提及
parilo/rl-server
tf
GitHub 中提及
thainv0212/re-ddpg
tf
GitHub 中提及
Brook1711/RIS_components
tf
GitHub 中提及
feruxhi/thoughts
tf
GitHub 中提及
JL321/mujo-2DWalker
tf
GitHub 中提及
songrotek/DDPG
tf
GitHub 中提及
wwydmanski/rl_tennis
pytorch
GitHub 中提及
fiberleif/nc_ddpg
tf
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
rikluost/RL_DQN_Pong
tf
GitHub 中提及
shahin-01/vqa-ad
pytorch
GitHub 中提及
tegg89/magnet
tf
GitHub 中提及
xuyuandong/simple-ddpg
tf
GitHub 中提及
nav74neet/ddpg4biped
tf
GitHub 中提及
massquantity/DBRL
pytorch
GitHub 中提及
MLCS-Yonsei/ddpg-control
tf
GitHub 中提及
fhbzc/FishAgentSimulation
tf
GitHub 中提及
bitterbloom/Reinforcement-Learning
pytorch
GitHub 中提及
stevenpjg/ddpg-aigym
tf
GitHub 中提及
FlyienSHaDOw/continuous_control
pytorch
GitHub 中提及
Souphis/mobile_robot_rl
tf
GitHub 中提及
tegg89/DLCamp_Jeju2018
tf
GitHub 中提及
samuelmat19/DDPG-tf2
tf
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
fshamshirdar/pytorch-rdpg
pytorch
GitHub 中提及
ailab-pku/rl-framework
pytorch
GitHub 中提及
TheInfamousWayne/ddpg
pytorch
GitHub 中提及
Gouet/DDPG_PendulumV1
tf
GitHub 中提及
liuyuezhang/pyrl
pytorch
GitHub 中提及
Medabid1/RL_Project
pytorch
GitHub 中提及
liampetti/DDPG
tf
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
rk1998/robot-sac
tf
GitHub 中提及
bacdavid/HER
tf
GitHub 中提及
KelvinYang0320/deepbots-panda
pytorch
GitHub 中提及
Pechckin/MountainCar
GitHub 中提及
hamishs/JAX-RL
jax
GitHub 中提及
xyshadow/baseline_ddpg
tf
GitHub 中提及
Crevass/Hybrid-Agent
tf
GitHub 中提及
flowersteam/curious
GitHub 中提及
tegg89/mann
tf
GitHub 中提及
ZainRaza14/deepRL
pytorch
GitHub 中提及
wpiszlogin/driver_critic
tf
GitHub 中提及
shehrum/RL_Continous-Control
pytorch
GitHub 中提及
PeterJochem/Deep_RL
tf
GitHub 中提及
yusme/DDPG
tf
GitHub 中提及
LM095/DDPG-implementation
pytorch
GitHub 中提及
dyth/doublegum
jax
GitHub 中提及
alhabk/SGEE--pytorch
pytorch
GitHub 中提及
madvn/DDPG
tf
GitHub 中提及
InSpaceAI/RL-Zoo
tf
GitHub 中提及
DanielLSM/safe-rl-tutorial
tf
GitHub 中提及
anita-hu/TF2-RL
tf
GitHub 中提及
darkrush/meta_learn
tf
GitHub 中提及
guillaumeboniface/reacher
pytorch
GitHub 中提及
samiranrl/ODSC_2019_RL
pytorch
GitHub 中提及
J93T/TP4-DDPG
pytorch
GitHub 中提及
ghliu/pytorch-ddpg
pytorch
GitHub 中提及
shakedzy/warehouse
GitHub 中提及
andreidi/AC_DDPG_walker
tf
GitHub 中提及
SimonRamstedt/ddpg
tf
GitHub 中提及
h-aboutalebi/SparceReward
pytorch
GitHub 中提及
soumik12345/DDPG
pytorch
GitHub 中提及
xtma/simple-pytorch-rl
pytorch
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
taku-y/20181125-pybullet
tf
GitHub 中提及
kushagra06/DDPG
tf
GitHub 中提及
georgkruse/cleanqrl
pytorch
GitHub 中提及
Philori22/DDPG-aigym
pytorch
GitHub 中提及
JonasRSV/DDPG
tf
GitHub 中提及
JL321/mujo-2DHalf-Cheetah
tf
GitHub 中提及
baturaysaglam/dase
pytorch
GitHub 中提及
schatty/D4PG-pytorch
pytorch
GitHub 中提及
baturaysaglam/ac-off-poc
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
claudeHifly/BipedalWalker-v3
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
YoUNG824/DDPG
tf
GitHub 中提及
bidimensional/Tennis
GitHub 中提及
HJDQN/HJQ
pytorch
GitHub 中提及
madhur-tandon/RL-Project
pytorch
GitHub 中提及
biemann/Continuous-Control
pytorch
GitHub 中提及
susan-amin/SparseBaseline1
pytorch
GitHub 中提及

基准测试

基准方法指标
continuous-control-on-lunar-lander-openai-gymDDPG
Score: 256.98±14.38
openai-gym-on-ant-v4DDPG
Average Return: 1712.12
openai-gym-on-halfcheetah-v4DDPG
Average Return: 14934.86
openai-gym-on-hopper-v4DDPG
Average Return: 1290.24
openai-gym-on-humanoid-v4DDPG
Average Return: 139.14
openai-gym-on-walker2d-v4DDPG
Average Return: 2994.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度强化学习的连续控制 | 论文 | HyperAI超神经