4 个月前

近端策略优化算法

近端策略优化算法

摘要

我们提出了一类新的强化学习策略梯度方法,该方法通过与环境交互采样数据,并使用随机梯度上升优化一个“替代”目标函数,交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新,而我们提出了一种新颖的目标函数,允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化(Proximal Policy Optimization, PPO),它们具有一些信任区域策略优化(Trust Region Policy Optimization, TRPO)的优点,但实现起来更加简单,适用范围更广,并且在样本复杂度方面表现出更好的性能(实证结果)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏玩法,并展示了PPO优于其他在线策略梯度方法,总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。

代码仓库

jfpettit/flare
pytorch
GitHub 中提及
sc2crazy/StarCrackRL
tf
GitHub 中提及
facebookresearch/Horizon
pytorch
GitHub 中提及
benevolentAI/guacamol_baselines
pytorch
GitHub 中提及
LuEE-C/PPO-Keras
GitHub 中提及
jsztompka/MultiAgent-PPO
pytorch
GitHub 中提及
nikhilbarhate99/PPO
pytorch
GitHub 中提及
alexbaumi/PPO-Algorithms
pytorch
GitHub 中提及
nvlabs/gbrl_sb3
pytorch
GitHub 中提及
s-sd/task-amenability
tf
GitHub 中提及
shuishida/soaprl
pytorch
GitHub 中提及
zjlab-ammi/llm4rl
pytorch
GitHub 中提及
tobiasemrich/SchafkopfRL
pytorch
GitHub 中提及
amartyamukherjee/ppo-packcooling
pytorch
GitHub 中提及
bonniesjli/PPO-Reacher_UnityML
pytorch
GitHub 中提及
Nordeus/heroic-rl
tf
GitHub 中提及
Gouet/Breakout-V0
tf
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
Aravind-11/Multi-Agent-RL
pytorch
GitHub 中提及
amanda-lambda/hack-flappy-bird-drl
pytorch
GitHub 中提及
dickreuter/neuron_poker
GitHub 中提及
FMArduini/python-rl
tf
GitHub 中提及
Aravind-11/IITM_Saastra
GitHub 中提及
sirakik/mprg_fc
pytorch
GitHub 中提及
morikatron/PPO
tf
GitHub 中提及
gstoica27/cpg_ppo
tf
GitHub 中提及
tidedra/vl-rlhf
pytorch
GitHub 中提及
ASzot/ppo-pytorch
pytorch
GitHub 中提及
jsztompka/PPO-demo
pytorch
GitHub 中提及
alex-petrenko/sample-factory
pytorch
GitHub 中提及
bonniesjli/PPO_Reacher
pytorch
GitHub 中提及
alexmlamb/blocks_rl_gru_setup
pytorch
GitHub 中提及
tmjeong1103/RL_with_RAY
pytorch
GitHub 中提及
ifestus/rl
tf
GitHub 中提及
dmiu-shell/deeprl-shell
pytorch
GitHub 中提及
andyljones/zonotable
GitHub 中提及
Khrylx/PyTorch-RL
pytorch
GitHub 中提及
MatteoBrentegani/PPO
tf
GitHub 中提及
adik993/ppo-pytorch
pytorch
GitHub 中提及
DMIU-ShELL/MOSAIC
pytorch
GitHub 中提及
nitthilan/pommerman
GitHub 中提及
amanda-lambda/drl-experiments
pytorch
GitHub 中提及
xiawenwen49/ppo
tf
GitHub 中提及
Aravind-11/AI-Gaming
tf
GitHub 中提及
silvialuu/DRL-2018
pytorch
GitHub 中提及
lgerrets/rl18-curiosity
GitHub 中提及
downingbots/RLDonkeycar
GitHub 中提及
tcmxx/CNTKUnityTools
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
alirezakazemipour/ppo-rnd
pytorch
GitHub 中提及
BerkeleyLearnVerify/VerifAI
tf
GitHub 中提及
evieq01/oodil
pytorch
GitHub 中提及
mit-realm/neuriss
pytorch
GitHub 中提及
openpsi-projects/srl
pytorch
GitHub 中提及
near32/regym
pytorch
GitHub 中提及
eladsar/rbi
pytorch
GitHub 中提及
Zartris/TD3_continuous_control
pytorch
GitHub 中提及
mark-gluzman/NmodelPPO
GitHub 中提及
michael-snower/ppo
tf
GitHub 中提及
CSautier/Breakout
pytorch
GitHub 中提及
wangshub/RL-Stock
GitHub 中提及
ikostrikov/pytorch-rl
pytorch
GitHub 中提及
Gouet/Acrobot-PPO
tf
GitHub 中提及
araffin/sbx
jax
GitHub 中提及
Ostyk/walk-bot
pytorch
GitHub 中提及
mightypirate1/PPO_homebrew
tf
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
ailab-pku/rl-framework
pytorch
GitHub 中提及
liuyuezhang/pyrl
pytorch
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
hmhuy0/SIM-RL
pytorch
GitHub 中提及
nikhilbarhate99/PPO-PyTorch
pytorch
GitHub 中提及
saschaschramm/Pong
tf
GitHub 中提及
Stippler/cow-simulator
pytorch
GitHub 中提及
Gouet/PPO-gym
tf
GitHub 中提及
Gouet/PPO-pytorch
pytorch
GitHub 中提及
hamishs/JAX-RL
jax
GitHub 中提及
Crevass/Hybrid-Agent
tf
GitHub 中提及
yoavalon/Quadcopter-env
tf
GitHub 中提及
rshnn/battleship
GitHub 中提及
jw1401/PPO-Tensorflow-2.0
tf
GitHub 中提及
UesugiErii/tf2-PPO-atari
tf
GitHub 中提及
miroblog/tf_deep_rl_trader
tf
GitHub 中提及
sirakik/ppo_football
pytorch
GitHub 中提及
bay3s/ppo-parallel
pytorch
GitHub 中提及
ku2482/gail-airl-ppo.pytorch
pytorch
GitHub 中提及
vheuthe/microbot_rl
GitHub 中提及
morikatron/GAIL_PPO
tf
GitHub 中提及
Michaelrising/Prog-RL
pytorch
GitHub 中提及
lcswillems/torch-ac
pytorch
GitHub 中提及
synthlabsai/big-math
GitHub 中提及
automl/learna
tf
GitHub 中提及
donamin/llc
tf
GitHub 中提及
anthonysong98/super-mario-bros-ppo
pytorch
GitHub 中提及
InSpaceAI/RL-Zoo
tf
GitHub 中提及
JonasRSV/PPO
tf
GitHub 中提及
takuseno/ppo
tf
GitHub 中提及
bentrevett/pytorch-rl
pytorch
GitHub 中提及
hdparks/AsteroidsDeepReinforcement
pytorch
GitHub 中提及
amaudruz/RL_openaigym
pytorch
GitHub 中提及
Narsil/rl-baselines
pytorch
GitHub 中提及
tuanpnm99/RLPongAgent
pytorch
GitHub 中提及
amzoyang/CS-221-Final-Project
pytorch
GitHub 中提及
OctThe16th/PPO-Keras
GitHub 中提及
alexbaumi/PPO-Algorithm
pytorch
GitHub 中提及
benpetit/cs379c
tf
GitHub 中提及
liyiyuian/Deep-Learning
GitHub 中提及
inoryy/reaver
tf
GitHub 中提及
taku-y/20181125-pybullet
tf
GitHub 中提及
cipher982/ppo-exploration
pytorch
GitHub 中提及
xtma/simple-pytorch-rl
pytorch
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
georgkruse/cleanqrl
pytorch
GitHub 中提及
goncharom/PPOv1
pytorch
GitHub 中提及
CSautier/PongBot
tf
GitHub 中提及
tatsu-lab/linguistic_calibration
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
emerge-lab/nocturne_lab
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
shiningsunnyday/mcts-chess
pytorch
GitHub 中提及
tommyvsfu1/RL-NTU
pytorch
GitHub 中提及
theresearchai/vehicle_routing_rl_2
pytorch
GitHub 中提及
jongornet14/HyperController
pytorch
GitHub 中提及
bay3s/ppo-rl
pytorch
GitHub 中提及

基准测试

基准方法指标
continuous-control-on-lunar-lander-openai-gymPPO
Score: 175.14±44.94
neural-architecture-search-on-nats-benchPPO (Schulman et al., 2017)
Test Accuracy: 44.95
neural-architecture-search-on-nats-bench-1PPO (Schulman et al., 2017)
Test Accuracy: 94.02
neural-architecture-search-on-nats-bench-2PPO (Schulman et al., 2017)
Test Accuracy: 71.68
openai-gym-on-ant-v4PPO
Average Return: 608.97
openai-gym-on-halfcheetah-v4PPO
Average Return: 6006.11
openai-gym-on-hopper-v4PPO
Average Return: 790.77
openai-gym-on-humanoid-v4PPO
Average Return: 925.89
openai-gym-on-walker2d-v4PPO
Average Return: 2739.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
近端策略优化算法 | 论文 | HyperAI超神经