7 个月前

摘要

本文论述了价值分布（value distribution）的基本重要性：即强化学习代理所接收的随机回报的分布。这与常见的强化学习方法形成了对比，后者通常建模该回报的期望值，或称为价值。尽管已有大量文献研究价值分布，但迄今为止，这些研究总是将其用于特定目的，例如实现风险意识行为。我们首先在策略评估和控制设置中提供了理论结果，揭示了后者存在显著的分布不稳定问题。然后，我们利用分布视角设计了一种新算法，该算法将贝尔曼方程应用于近似价值分布的学习。我们使用来自Arcade Learning Environment的游戏套件对我们的算法进行了评估。实验结果不仅达到了当前最佳水平，而且通过具体案例证明了在近似强化学习中价值分布的重要性。最后，我们将理论和实证证据结合起来，强调价值分布在近似设置下对学习过程的影响方式。

源 PDF