
摘要
人类在任何时刻只能观察到周围环境的一部分,但仍然能够做出复杂的长期决策,这得益于我们的长期记忆。为了测试人工智能如何学习和利用其长期记忆,我们开发了一个部分可观测的马尔可夫决策过程(POMDP)环境,在该环境中,智能体需要在导航迷宫的同时回答问题。该环境完全基于知识图谱(KG),其中隐藏状态是动态的知识图谱。知识图谱既可供人类阅读,也可供机器读取,这使得我们可以轻松地了解智能体记住和忘记的内容。我们训练并比较了具有不同记忆系统的智能体,以揭示人类大脑在管理自身记忆时的工作机制。通过将给定的学习目标重新定义为学习一种记忆管理策略,我们成功捕捉到了最可能的隐藏状态,这种状态不仅具有可解释性,而且可以重复使用。
代码仓库
humemai/agent-room-env-v2-lstm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| roomenv-v2-on-roomenv-v2 | Baseline-capacity=48 | final agent reward: 200 |
| roomenv-v2-on-roomenv-v2 | HumemAI-capacity=48 | final agent reward: 235 |