
摘要
我们将深度Q学习成功的背后理念应用于连续动作域。本文介绍了一种基于确定性策略梯度的无模型演员-评论家算法,该算法能够在连续动作空间中运行。使用相同的學習算法、网络架构和超参数,我们的算法稳健地解决了超过20个模拟物理任务,包括经典问题如倒立摆摆动(cartpole swing-up)、灵巧操作、足式运动和汽车驾驶。我们的算法能够找到性能与完全访问领域动态及其导数的规划算法所发现的策略相媲美的策略。此外,我们还证明了对于许多任务,该算法可以进行端到端学习:直接从原始像素输入中学习策略。
代码仓库
prajwalgatti/DRL-Continuous-Control
GitHub 中提及
IvanVigor/MADDPG-Unity
pytorch
GitHub 中提及
facebookresearch/Horizon
pytorch
GitHub 中提及
b06b01073/continuous-control
pytorch
GitHub 中提及
MathPhysSim/PER-NAF
tf
GitHub 中提及
majercakdavid/gym-virtual-quant-trading
pytorch
GitHub 中提及
s-sd/task-amenability
tf
GitHub 中提及
nav74neet/ddpg_biped
tf
GitHub 中提及
KAIST-AILab/deeprl_practice_colab
GitHub 中提及
YangRui2015/Modular_HER
tf
GitHub 中提及
flavioschneider/ml_papers_presentations
GitHub 中提及
nav74neet/rl4biped
tf
GitHub 中提及
T3chy/DDPG
pytorch
GitHub 中提及
SaminYeasar/off_policy_ac
pytorch
GitHub 中提及
tegg89/magnn
tf
GitHub 中提及
siyuofzhou/DDPG
tf
GitHub 中提及
abbadka/quadcopter
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
krasing/DRLearningCollaboration
pytorch
GitHub 中提及
Sheldonmao/Learning-To-walk
GitHub 中提及
toni-sm/skrl
jax
Dekki-Aero/DDPG
tf
GitHub 中提及
VasaKiDD/TD3-deep-rl-research
pytorch
GitHub 中提及
AgrawalAmey/safe-explorer
pytorch
GitHub 中提及
dchetelat/acer
pytorch
GitHub 中提及
MrSyee/pg-is-all-you-need
GitHub 中提及
bmeyers/VirtualMicrogridSegmentation
tf
GitHub 中提及
JonasRSV/PGTensorflow
tf
GitHub 中提及
floodsung/DDPG
tf
GitHub 中提及
wassname/rl-portfolio-management
GitHub 中提及
parilo/rl-server
tf
GitHub 中提及
sayantanauddy/hierarchical_bipedal_controller
tf
GitHub 中提及
thainv0212/re-ddpg
tf
GitHub 中提及
Brook1711/RIS_components
tf
GitHub 中提及
sliao-mi-luku/DeepRL-multiple-agents-tennis-udacity-drlnd-p3
pytorch
GitHub 中提及
PeterJochem/Double_Deep_QLearning
tf
GitHub 中提及
lukebhan/TwitterSentimentAnalysisTool
GitHub 中提及
seungjaeryanlee/osim-rl-helper
GitHub 中提及
feruxhi/thoughts
tf
GitHub 中提及
IvanVigor/Deep-Deterministic-Policy-Gradient-Unity-Env
pytorch
GitHub 中提及
luke-bhan/TwitterSentimentAnalysisTool
GitHub 中提及
mindspore-courses/Deep-Reinforcement-Learning-Algorithms-with-MindSpore
mindspore
GitHub 中提及
JL321/mujo-2DWalker
tf
GitHub 中提及
yukezhu/tensorflow-reinforce
tf
GitHub 中提及
songrotek/DDPG
tf
GitHub 中提及
wwydmanski/rl_tennis
pytorch
GitHub 中提及
dpoulopoulos/drl_continuous_control
pytorch
GitHub 中提及
fiberleif/nc_ddpg
tf
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
petsol/ContinuousControl_UnityAgent_DDPG_Udacity
pytorch
GitHub 中提及
dpoulopoulos/drl_collaborate_compete
pytorch
GitHub 中提及
rikluost/RL_DQN_Pong
tf
GitHub 中提及
shahin-01/vqa-ad
pytorch
GitHub 中提及
tegg89/magnet
tf
GitHub 中提及
xuyuandong/simple-ddpg
tf
GitHub 中提及
nav74neet/ddpg4biped
tf
GitHub 中提及
iDataist/Tennis-With-Multi-Agent-Reinforcement
pytorch
GitHub 中提及
Kikumu/Reinforcement-Learning-repo
GitHub 中提及
massquantity/DBRL
pytorch
GitHub 中提及
MLCS-Yonsei/ddpg-control
tf
GitHub 中提及
fhbzc/FishAgentSimulation
tf
GitHub 中提及
bitterbloom/Reinforcement-Learning
pytorch
GitHub 中提及
stevenpjg/ddpg-aigym
tf
GitHub 中提及
FlyienSHaDOw/continuous_control
pytorch
GitHub 中提及
Souphis/mobile_robot_rl
tf
GitHub 中提及
tegg89/DLCamp_Jeju2018
tf
GitHub 中提及
alathiya/RL-Quadcoptor-Flying
GitHub 中提及
samuelmat19/DDPG-tf2
tf
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
krasing/DRLearningContinuousControl
pytorch
GitHub 中提及
fshamshirdar/pytorch-rdpg
pytorch
GitHub 中提及
ailab-pku/rl-framework
pytorch
GitHub 中提及
TheInfamousWayne/ddpg
pytorch
GitHub 中提及
Gouet/DDPG_PendulumV1
tf
GitHub 中提及
liuyuezhang/pyrl
pytorch
GitHub 中提及
Medabid1/RL_Project
pytorch
GitHub 中提及
liampetti/DDPG
tf
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
rk1998/robot-sac
tf
GitHub 中提及
bacdavid/HER
tf
GitHub 中提及
KelvinYang0320/deepbots-panda
pytorch
GitHub 中提及
Pechckin/MountainCar
GitHub 中提及
hamishs/JAX-RL
jax
GitHub 中提及
NOHYC/autonomous_driving_car_project
GitHub 中提及
xyshadow/baseline_ddpg
tf
GitHub 中提及
saoudh/Reinforcement-Learning
tf
GitHub 中提及
Crevass/Hybrid-Agent
tf
GitHub 中提及
flowersteam/curious
GitHub 中提及
tegg89/mann
tf
GitHub 中提及
ZainRaza14/deepRL
pytorch
GitHub 中提及
wpiszlogin/driver_critic
tf
GitHub 中提及
mathformoso/RL-playground---ddpg
tf
GitHub 中提及
shehrum/RL_Continous-Control
pytorch
GitHub 中提及
PeterJochem/Deep_RL
tf
GitHub 中提及
backgom2357/Recommender_system_via_deep_RL
tf
GitHub 中提及
yusme/DDPG
tf
GitHub 中提及
LM095/DDPG-implementation
pytorch
GitHub 中提及
dyth/doublegum
jax
GitHub 中提及
alhabk/SGEE--pytorch
pytorch
GitHub 中提及
dan-lennox/ml-udacity-quadcopter-rl
GitHub 中提及
madvn/DDPG
tf
GitHub 中提及
EyaRhouma/collaboration-competition-MADDPG
pytorch
GitHub 中提及
InSpaceAI/RL-Zoo
tf
GitHub 中提及
DanielLSM/safe-rl-tutorial
tf
GitHub 中提及
anita-hu/TF2-RL
tf
GitHub 中提及
darkrush/meta_learn
tf
GitHub 中提及
shahabi8/Deep-Reinforcement-Learning
GitHub 中提及
guillaumeboniface/reacher
pytorch
GitHub 中提及
samiranrl/ODSC_2019_RL
pytorch
GitHub 中提及
baturaysaglam/RIS-MISO-Deep-Reinforcement-Learning
pytorch
GitHub 中提及
SergiPonsa/Reinforcement-Learning-Sergi
pytorch
GitHub 中提及
hemilpanchiwala/Hindsight-Experience-Replay
pytorch
GitHub 中提及
J93T/TP4-DDPG
pytorch
GitHub 中提及
ghliu/pytorch-ddpg
pytorch
GitHub 中提及
shakedzy/warehouse
GitHub 中提及
andreidi/AC_DDPG_walker
tf
GitHub 中提及
SimonRamstedt/ddpg
tf
GitHub 中提及
h-aboutalebi/SparceReward
pytorch
GitHub 中提及
soumik12345/DDPG
pytorch
GitHub 中提及
xtma/simple-pytorch-rl
pytorch
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
taku-y/20181125-pybullet
tf
GitHub 中提及
halajadallah/RL-Quadcopter_project
GitHub 中提及
kushagra06/DDPG
tf
GitHub 中提及
ZiyangY/IndProject-RL-in-Supply-chain
pytorch
GitHub 中提及
georgkruse/cleanqrl
pytorch
GitHub 中提及
Philori22/DDPG-aigym
pytorch
GitHub 中提及
WittmannF/quadcopter-best-practices
GitHub 中提及
JonasRSV/DDPG
tf
GitHub 中提及
JL321/mujo-2DHalf-Cheetah
tf
GitHub 中提及
baturaysaglam/dase
pytorch
GitHub 中提及
schatty/D4PG-pytorch
pytorch
GitHub 中提及
ai-winter/python_motion_planning
GitHub 中提及
baturaysaglam/ac-off-poc
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
claudeHifly/BipedalWalker-v3
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
YoUNG824/DDPG
tf
GitHub 中提及
bidimensional/Tennis
GitHub 中提及
HJDQN/HJQ
pytorch
GitHub 中提及
madhur-tandon/RL-Project
pytorch
GitHub 中提及
biemann/Continuous-Control
pytorch
GitHub 中提及
denizmguen/IANNWTF2019-Project
tf
GitHub 中提及
DLR-RM/stable-baselines3
pytorch
iDataist/Continuous-Control-with-Deep-Deterministic-Policy-Gradient
pytorch
GitHub 中提及
FlyienSHaDOw/project_2_continuous_control
pytorch
GitHub 中提及
susan-amin/SparseBaseline1
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | DDPG | Score: 256.98±14.38 |
| openai-gym-on-ant-v4 | DDPG | Average Return: 1712.12 |
| openai-gym-on-halfcheetah-v4 | DDPG | Average Return: 14934.86 |
| openai-gym-on-hopper-v4 | DDPG | Average Return: 1290.24 |
| openai-gym-on-humanoid-v4 | DDPG | Average Return: 139.14 |
| openai-gym-on-walker2d-v4 | DDPG | Average Return: 2994.54 |