
摘要
我们提出了一种新的算法——均值行动-评价(Mean Actor-Critic, MAC),用于离散动作连续状态的强化学习。MAC 是一种策略梯度算法,它利用代理对所有动作值的显式表示来估计策略的梯度,而不是仅使用实际执行的动作。我们证明了这种方法相对于传统的行动-评价方法,能够降低策略梯度估计的方差。我们在两个控制域和六款 Atari 游戏上进行了实证研究,结果显示 MAC 在性能上与最先进的策略搜索算法相当。
代码仓库
camall3n/atari-MAC
tf
GitHub 中提及
kavosh8/MAC
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-beam-rider | MAC | Score: 6072 |
| atari-games-on-atari-2600-breakout | MAC | Score: 372.7 |
| atari-games-on-atari-2600-pong | MAC | Score: 10.6 |
| atari-games-on-atari-2600-qbert | MAC | Score: 243.4 |
| atari-games-on-atari-2600-seaquest | MAC | Score: 1703.4 |
| atari-games-on-atari-2600-space-invaders | MAC | Score: 1173.1 |
| continuous-control-on-cart-pole-openai-gym | MAC | Score: 178.3 |
| continuous-control-on-lunar-lander-openai-gym | MAC | Score: 163.5 |