
摘要
本文论述了价值分布(value distribution)的基本重要性:即强化学习代理所接收的随机回报的分布。这与常见的强化学习方法形成了对比,后者通常建模该回报的期望值,或称为价值。尽管已有大量文献研究价值分布,但迄今为止,这些研究总是将其用于特定目的,例如实现风险意识行为。我们首先在策略评估和控制设置中提供了理论结果,揭示了后者存在显著的分布不稳定问题。然后,我们利用分布视角设计了一种新算法,该算法将贝尔曼方程应用于近似价值分布的学习。我们使用来自Arcade Learning Environment的游戏套件对我们的算法进行了评估。实验结果不仅达到了当前最佳水平,而且通过具体案例证明了在近似强化学习中价值分布的重要性。最后,我们将理论和实证证据结合起来,强调价值分布在近似设置下对学习过程的影响方式。
代码仓库
qgallouedec/deep_rl
pytorch
facebookresearch/Horizon
pytorch
GitHub 中提及
eric-yim/fin_map
tf
GitHub 中提及
pihey1995/DistributionalRL
pytorch
GitHub 中提及
marload/dist-rl-tf2
tf
GitHub 中提及
guillaumeboniface/bananaland
pytorch
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
parilo/gym_bipedal_walker_v2_solution
tf
GitHub 中提及
Abdelhamid-bouzid/Distributional-RL
pytorch
GitHub 中提及
shuli0808/DQN
pytorch
GitHub 中提及
BY571/DQN-Atari-Agents
pytorch
GitHub 中提及
kochlisGit/autonomous-vehicles-agent
tf
GitHub 中提及
mindspore-courses/Rainbow-MindSpore
mindspore
GitHub 中提及
Curt-Park/rainbow-is-all-you-need
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
Kchu/DeepRL_CK
pytorch
GitHub 中提及
chandar-lab/RLHive
pytorch
marload/DistRL-TensorFlow2
tf
GitHub 中提及