
摘要
经验回放(Experience Replay)使在线强化学习代理能够记住并重用过去的经历。在先前的研究中,经验转换是从回放记忆中均匀采样的。然而,这种方法仅仅以它们最初发生的频率重播这些转换,而不考虑其重要性。本文提出了一种优先经验回放框架,以便更频繁地重播重要的转换,从而更高效地学习。我们将在深度Q网络(Deep Q-Networks, DQN)中应用优先经验回放,这是一种在许多Atari游戏中达到人类水平表现的强化学习算法。带有优先经验回放的DQN实现了新的最先进水平,在49款游戏中有41款的表现优于使用均匀回放的DQN。
代码仓库
snhwang/p3_collab-compet
pytorch
GitHub 中提及
MathPhysSim/PER-NAF
tf
GitHub 中提及
nbopardi/smb
tf
GitHub 中提及
KAIST-AILab/deeprl_practice_colab
GitHub 中提及
CharlotteMorrison/Baxter-Research
pytorch
GitHub 中提及
VictorZuanazzi/Project_RL
pytorch
GitHub 中提及
snhwang/p1_navigation_SNH
pytorch
GitHub 中提及
CSCI4850/S20-team3-project
GitHub 中提及
VasaKiDD/TD3-deep-rl-research
pytorch
GitHub 中提及
Howuhh/prioritized_experience_replay
pytorch
GitHub 中提及
JuliaPOMDP/DeepQLearning.jl
GitHub 中提及
utarumo/RL_implementation
tf
GitHub 中提及
ameet-1997/Prioritized_Experience_Replay
pytorch
GitHub 中提及
snhwang/p2-continuous-control-SNH
pytorch
GitHub 中提及
kayuksel/pytorch-ars
pytorch
GitHub 中提及
iDataist/Navigation-with-Deep-Q-Network
pytorch
GitHub 中提及
mindspore-courses/Deep-Reinforcement-Learning-Algorithms-with-MindSpore
mindspore
GitHub 中提及
guillaumeboniface/bananaland
pytorch
GitHub 中提及
Clement-Hui/Q-Learning
pytorch
GitHub 中提及
MrDaubinet/collaboration-and-competition
pytorch
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
justinmaojones/starr
GitHub 中提及
dtak/hip-mdp-public
tf
GitHub 中提及
xinjinghao/sparrow-v1
pytorch
GitHub 中提及
iDataist/Tennis-With-Multi-Agent-Reinforcement
pytorch
GitHub 中提及
olonok69/Udacity_Banana_Unity
pytorch
GitHub 中提及
atavakol/action-hypergraph-networks
tf
GitHub 中提及
1jsingh/rl_navigation
pytorch
GitHub 中提及
ACampero/dopamine
tf
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
ku2482/soft-actor-critic.pytorch
pytorch
GitHub 中提及
eddynelson/dqn
tf
GitHub 中提及
rybread1/deep-rl-trex
tf
GitHub 中提及
CharlotteMorrison/Baxter-VREP
pytorch
GitHub 中提及
seacevedo/ReinforcementLearningProjects
pytorch
GitHub 中提及
7starsea/Prioritized-Experience-Replay
GitHub 中提及
tphanson/xupr-drl
tf
GitHub 中提及
Adrelf/DRL-navigation
pytorch
GitHub 中提及
backgom2357/Recommender_system_via_deep_RL
tf
GitHub 中提及
MEOWMEOW114/nd893-p1-navigation-banana
pytorch
GitHub 中提及
yusme/DDPG
tf
GitHub 中提及
KatyNTsachi/Hierarchical-RL
tf
GitHub 中提及
mindspore-courses/Rainbow-MindSpore
mindspore
GitHub 中提及
kmdanielduan/DQN_Family_PyTorch
pytorch
GitHub 中提及
xusophia/DataSciFinalProj
pytorch
GitHub 中提及
rybread1/DeepRlTrex
tf
GitHub 中提及
sunfex/weighted-sac
pytorch
GitHub 中提及
OMS1996/Carla_The_RL_Self-Driving-Car
tf
GitHub 中提及
Arrabonae/openai_DDDQN
pytorch
GitHub 中提及
Curt-Park/rainbow-is-all-you-need
GitHub 中提及
instadeepai/flashbax
jax
GitHub 中提及
CharlotteMorrison/Baxter-VREP-Version-2
pytorch
GitHub 中提及
anhtu293/NeurIPS-2019-Challenge
tf
GitHub 中提及
yzheng51/rl-dino-run
pytorch
GitHub 中提及
V0LsTeR/dopamine_prioritized_buffer
tf
GitHub 中提及
SimonRamstedt/ddpg
tf
GitHub 中提及
HussonnoisMaxence/RL_Algorithms
pytorch
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
Suryavf/SelfDrivingCar
pytorch
GitHub 中提及
toshikwa/soft-actor-critic.pytorch
pytorch
GitHub 中提及
shashwatsaxena571/DRL-navigation
pytorch
GitHub 中提及
Guillaume-Cr/lunar_lander_per
pytorch
GitHub 中提及
austinsilveria/Banana-Collection-DQN
pytorch
GitHub 中提及
GoingMyWay/dopamine_reward_decomposition
tf
GitHub 中提及
emiled16/Beyond_prioritized_experience_replay
pytorch
GitHub 中提及
chandar-lab/RLHive
pytorch
atavakol/action-branching-agents
tf
GitHub 中提及
ku2482/sac-discrete.pytorch
pytorch
GitHub 中提及
Damcy/prioritized-experience-replay
pytorch
GitHub 中提及
Brandon-Rozek/DeepRL
GitHub 中提及
V0LsTeR/DQN_heap
tf
GitHub 中提及
iDataist/Continuous-Control-with-Deep-Deterministic-Policy-Gradient
pytorch
GitHub 中提及
SayhoKim/tetrisRL
tf
GitHub 中提及