
摘要
强化学习能够解决决策问题,并训练智能体根据预设的奖励函数在环境中采取行为。然而,当奖励信号过于稀疏时,智能体在环境探索过程中可能长期无法获得奖励,导致学习效率显著下降。针对此类问题,一种可行的解决方案是为智能体引入内在动机机制,以引导其进行更有信息量的探索,从而在探索过程中更有可能遇到外部奖励信号。新颖性检测(novelty detection)是内在动机研究中一个具有前景的分支。本文提出了一种名为自监督网络蒸馏(Self-supervised Network Distillation, SND)的内在动机算法类别,其以蒸馏误差作为新颖性度量指标,其中预测模型与目标模型均参与训练。我们针对该目标,改编了三种现有的自监督学习方法,并在一组被认为难以探索的十种环境中对其进行了实验验证。实验结果表明,在相同的训练时间内,所提出的方法相较于基线模型能够实现更快的奖励增长和更高的外部奖励累积,这表明在稀疏奖励环境中探索效率得到了显著提升。此外,我们所采用的分析方法为所提出的模型提供了有价值的可解释性洞察。
代码仓库
iskandor/snd
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-gravitar | SND-STD | Score: 4643 |
| atari-games-on-atari-2600-gravitar | SND-V | Score: 2741 |
| atari-games-on-atari-2600-gravitar | SND-VIC | Score: 6712 |
| atari-games-on-atari-2600-montezumas-revenge | SND-VIC | Score: 7838 |
| atari-games-on-atari-2600-montezumas-revenge | SND-STD | Score: 7212 |
| atari-games-on-atari-2600-montezumas-revenge | SND-V | Score: 21565 |
| atari-games-on-atari-2600-pitfall | SND-V | Score: 0 |
| atari-games-on-atari-2600-pitfall | SND-VIC | Score: 0 |
| atari-games-on-atari-2600-private-eye | SND-STD | Score: 15089 |
| atari-games-on-atari-2600-private-eye | SND-VIC | Score: 17313 |
| atari-games-on-atari-2600-private-eye | SND-V | Score: 4213 |
| atari-games-on-atari-2600-solaris | SND-VIC | Score: 11865 |
| atari-games-on-atari-2600-solaris | SND-STD | Score: 12460 |
| atari-games-on-atari-2600-solaris | SND-V | Score: 11582 |
| atari-games-on-atari-2600-venture | SND-STD | Score: 2138 |
| atari-games-on-atari-2600-venture | SND-V | Score: 1787 |
| atari-games-on-atari-2600-venture | SND-VIC | Score: 2188 |