
摘要
我们提出了一类新的强化学习策略梯度方法,该方法通过与环境交互采样数据,并使用随机梯度上升优化一个“替代”目标函数,交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新,而我们提出了一种新颖的目标函数,允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化(Proximal Policy Optimization, PPO),它们具有一些信任区域策略优化(Trust Region Policy Optimization, TRPO)的优点,但实现起来更加简单,适用范围更广,并且在样本复杂度方面表现出更好的性能(实证结果)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏玩法,并展示了PPO优于其他在线策略梯度方法,总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。
代码仓库
jfpettit/flare
pytorch
GitHub 中提及
sc2crazy/StarCrackRL
tf
GitHub 中提及
intellisys-lab/stellaris-sc24
GitHub 中提及
gaetanserre/l2rpn-2022_ppo-baseline
GitHub 中提及
facebookresearch/Horizon
pytorch
GitHub 中提及
clwainwright/proximal_policy_optimization
tf
GitHub 中提及
benevolentAI/guacamol_baselines
pytorch
GitHub 中提及
LuEE-C/PPO-Keras
GitHub 中提及
jsztompka/MultiAgent-PPO
pytorch
GitHub 中提及
nikhilbarhate99/PPO
pytorch
GitHub 中提及
JL321/Proximal-Policy-Optimization
tf
GitHub 中提及
alexbaumi/PPO-Algorithms
pytorch
GitHub 中提及
nvlabs/gbrl_sb3
pytorch
GitHub 中提及
s-sd/task-amenability
tf
GitHub 中提及
shuishida/soaprl
pytorch
GitHub 中提及
zjlab-ammi/llm4rl
pytorch
GitHub 中提及
tobiasemrich/SchafkopfRL
pytorch
GitHub 中提及
amartyamukherjee/ppo-packcooling
pytorch
GitHub 中提及
NACLab/robust-active-inference
jax
GitHub 中提及
bonniesjli/PPO-Reacher_UnityML
pytorch
GitHub 中提及
Nordeus/heroic-rl
tf
GitHub 中提及
zsz-hst/RL_single_chase_point
GitHub 中提及
Gouet/Breakout-V0
tf
GitHub 中提及
gwthomas/gtml
tf
GitHub 中提及
Aravind-11/Multi-Agent-RL
pytorch
GitHub 中提及
amanda-lambda/hack-flappy-bird-drl
pytorch
GitHub 中提及
toni-sm/skrl
jax
dickreuter/neuron_poker
GitHub 中提及
FMArduini/python-rl
tf
GitHub 中提及
adamos581/ppo-keras-football
GitHub 中提及
jcwleo/curiosity-driven-exploration-pytorch
pytorch
GitHub 中提及
Aravind-11/IITM_Saastra
GitHub 中提及
sirakik/mprg_fc
pytorch
GitHub 中提及
morikatron/PPO
tf
GitHub 中提及
gstoica27/cpg_ppo
tf
GitHub 中提及
MrSyee/pg-is-all-you-need
GitHub 中提及
Rafael1s/Deep-Reinforcement-Learning-Udacity
pytorch
GitHub 中提及
tidedra/vl-rlhf
pytorch
GitHub 中提及
ASzot/ppo-pytorch
pytorch
GitHub 中提及
jsztompka/PPO-demo
pytorch
GitHub 中提及
alex-petrenko/sample-factory
pytorch
GitHub 中提及
bonniesjli/PPO_Reacher
pytorch
GitHub 中提及
alexmlamb/blocks_rl_gru_setup
pytorch
GitHub 中提及
seungjaeryanlee/osim-rl-helper
GitHub 中提及
tmjeong1103/RL_with_RAY
pytorch
GitHub 中提及
ifestus/rl
tf
GitHub 中提及
dmiu-shell/deeprl-shell
pytorch
GitHub 中提及
andyljones/zonotable
GitHub 中提及
Khrylx/PyTorch-RL
pytorch
GitHub 中提及
MatteoBrentegani/PPO
tf
GitHub 中提及
danelee2601/rl-based-automatic-berthing
GitHub 中提及
adik993/ppo-pytorch
pytorch
GitHub 中提及
DMIU-ShELL/MOSAIC
pytorch
GitHub 中提及
nitthilan/pommerman
GitHub 中提及
amanda-lambda/drl-experiments
pytorch
GitHub 中提及
yoavalon/QuadcopterReinforcementLearning
tf
GitHub 中提及
xiawenwen49/ppo
tf
GitHub 中提及
siddharthverma314/proximalpolicyoptimization
pytorch
GitHub 中提及
SPark9625/PyTorch-Proximal-Policy-Optimization
pytorch
GitHub 中提及
Aravind-11/AI-Gaming
tf
GitHub 中提及
gmoss1/Kaggle-Halite-IV-RL
GitHub 中提及
silvialuu/DRL-2018
pytorch
GitHub 中提及
lgerrets/rl18-curiosity
GitHub 中提及
downingbots/RLDonkeycar
GitHub 中提及
tcmxx/CNTKUnityTools
GitHub 中提及
BrianPulfer/PapersReimplementations
pytorch
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
alirezakazemipour/ppo-rnd
pytorch
GitHub 中提及
BerkeleyLearnVerify/VerifAI
tf
GitHub 中提及
evieq01/oodil
pytorch
GitHub 中提及
mit-realm/neuriss
pytorch
GitHub 中提及
dyabel/handson_rl
pytorch
openpsi-projects/srl
pytorch
GitHub 中提及
near32/regym
pytorch
GitHub 中提及
eladsar/rbi
pytorch
GitHub 中提及
nric/ProximalPolicyOptimizationContinuousKeras
tf
GitHub 中提及
harruff/Senior_Project_Repository
tf
GitHub 中提及
deconlabs/Binanace-trading-simulation
pytorch
GitHub 中提及
Zartris/TD3_continuous_control
pytorch
GitHub 中提及
EconomistGrant/HTFE-tensortrade
tf
GitHub 中提及
mark-gluzman/NmodelPPO
GitHub 中提及
michael-snower/ppo
tf
GitHub 中提及
CSautier/Breakout
pytorch
GitHub 中提及
wangshub/RL-Stock
GitHub 中提及
ikostrikov/pytorch-a2c-ppo-acktr-gail
pytorch
GitHub 中提及
SalvatoreCognetta/reasoning-agent-project
pytorch
GitHub 中提及
Ipsedo/EvoMotion
pytorch
ikostrikov/pytorch-rl
pytorch
GitHub 中提及
Gouet/Acrobot-PPO
tf
GitHub 中提及
https://bitbucket.org/act-lab/release
GitHub 中提及
araffin/sbx
jax
GitHub 中提及
Ostyk/walk-bot
pytorch
GitHub 中提及
mightypirate1/PPO_homebrew
tf
GitHub 中提及
fdcl-gwu/gym-rotor
pytorch
GitHub 中提及
ailab-pku/rl-framework
pytorch
GitHub 中提及
llSourcell/OpenAI_Five_vs_Dota2_Explained
pytorch
GitHub 中提及
liuyuezhang/pyrl
pytorch
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
shreyesss/PPO-implementation-keras-tensorflow
tf
GitHub 中提及
hmhuy0/SIM-RL
pytorch
GitHub 中提及
nikhilbarhate99/PPO-PyTorch
pytorch
GitHub 中提及
saschaschramm/Pong
tf
GitHub 中提及
Stippler/cow-simulator
pytorch
GitHub 中提及
Gouet/PPO-gym
tf
GitHub 中提及
Gouet/PPO-pytorch
pytorch
GitHub 中提及
decoderkurt/research_project_school_of_ai_2019
tf
GitHub 中提及
Gregory-Eales/proximal-policy-optimization
pytorch
GitHub 中提及
GiadaSimionato/Reasoning_Agents_2020
pytorch
GitHub 中提及
hamishs/JAX-RL
jax
GitHub 中提及
Crevass/Hybrid-Agent
tf
GitHub 中提及
yoavalon/Quadcopter-env
tf
GitHub 中提及
rshnn/battleship
GitHub 中提及
jw1401/PPO-Tensorflow-2.0
tf
GitHub 中提及
UesugiErii/tf2-PPO-atari
tf
GitHub 中提及
miroblog/tf_deep_rl_trader
tf
GitHub 中提及
sirakik/ppo_football
pytorch
GitHub 中提及
bay3s/ppo-parallel
pytorch
GitHub 中提及
2mawi2/master-thesis-experiments
tf
GitHub 中提及
ku2482/gail-airl-ppo.pytorch
pytorch
GitHub 中提及
vheuthe/microbot_rl
GitHub 中提及
morikatron/GAIL_PPO
tf
GitHub 中提及
Michaelrising/Prog-RL
pytorch
GitHub 中提及
lcswillems/torch-ac
pytorch
GitHub 中提及
synthlabsai/big-math
GitHub 中提及
automl/learna
tf
GitHub 中提及
donamin/llc
tf
GitHub 中提及
anthonysong98/super-mario-bros-ppo
pytorch
GitHub 中提及
vermashresth/damage-aware-PPO
tf
GitHub 中提及
InSpaceAI/RL-Zoo
tf
GitHub 中提及
vcadillog/PPO-Mario-Bros-Tensorflow-2
tf
GitHub 中提及
jhare96/reinforcement-learning
tf
GitHub 中提及
JonasRSV/PPO
tf
GitHub 中提及
takuseno/ppo
tf
GitHub 中提及
reinforcement-learning-kr/pg_travel
pytorch
GitHub 中提及
bentrevett/pytorch-rl
pytorch
GitHub 中提及
hdparks/AsteroidsDeepReinforcement
pytorch
GitHub 中提及
amaudruz/RL_openaigym
pytorch
GitHub 中提及
Narsil/rl-baselines
pytorch
GitHub 中提及
wangzhengfei0730/NIPS2018-AIforProsthetics
tf
GitHub 中提及
OctopusMind/RLHF_PPO
pytorch
tuanpnm99/RLPongAgent
pytorch
GitHub 中提及
amzoyang/CS-221-Final-Project
pytorch
GitHub 中提及
OctThe16th/PPO-Keras
GitHub 中提及
alexbaumi/PPO-Algorithm
pytorch
GitHub 中提及
benpetit/cs379c
tf
GitHub 中提及
liyiyuian/Deep-Learning
GitHub 中提及
deconlabs/Binanace_trading_simulation
pytorch
GitHub 中提及
inoryy/reaver
tf
GitHub 中提及
deconlabs/TradingZoo-Dynamic-fee-simulation
pytorch
GitHub 中提及
jcwleo/random-network-distillation-pytorch
pytorch
GitHub 中提及
taku-y/20181125-pybullet
tf
GitHub 中提及
cipher982/ppo-exploration
pytorch
GitHub 中提及
xtma/simple-pytorch-rl
pytorch
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
georgkruse/cleanqrl
pytorch
GitHub 中提及
uvipen/super-mario-bros-ppo-pytorch
pytorch
GitHub 中提及
goncharom/PPOv1
pytorch
GitHub 中提及
CSautier/PongBot
tf
GitHub 中提及
microsoft/strategically_efficient_rl
tf
GitHub 中提及
tatsu-lab/linguistic_calibration
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
emerge-lab/nocturne_lab
pytorch
GitHub 中提及
tilkb/thermoai
tf
GitHub 中提及
shiningsunnyday/mcts-chess
pytorch
GitHub 中提及
DevSlem/AINE-DRL
pytorch
tommyvsfu1/RL-NTU
pytorch
GitHub 中提及
theresearchai/vehicle_routing_rl_2
pytorch
GitHub 中提及
jongornet14/HyperController
pytorch
GitHub 中提及
DLR-RM/stable-baselines3
pytorch
bay3s/ppo-rl
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | PPO | Score: 175.14±44.94 | 
| neural-architecture-search-on-nats-bench | PPO (Schulman et al., 2017) | Test Accuracy: 44.95 | 
| neural-architecture-search-on-nats-bench-1 | PPO (Schulman et al., 2017) | Test Accuracy: 94.02 | 
| neural-architecture-search-on-nats-bench-2 | PPO (Schulman et al., 2017) | Test Accuracy: 71.68 | 
| openai-gym-on-ant-v4 | PPO | Average Return: 608.97 | 
| openai-gym-on-halfcheetah-v4 | PPO | Average Return: 6006.11 | 
| openai-gym-on-hopper-v4 | PPO | Average Return: 790.77 | 
| openai-gym-on-humanoid-v4 | PPO | Average Return: 925.89 | 
| openai-gym-on-walker2d-v4 | PPO | Average Return: 2739.81 |