摘要

构建具有规划能力的智能体一直是追求人工智能的主要挑战之一。基于树的规划方法在象棋和围棋等具有完美模拟器的复杂领域取得了巨大成功。然而，在现实世界问题中，环境的动力学往往非常复杂且未知。在这项工作中，我们提出了MuZero算法，该算法通过结合基于树的搜索和学习模型，在一系列具有挑战性和视觉复杂性的领域中实现了超越人类的表现，而无需了解这些领域的底层动力学。MuZero学习了一个模型，该模型在迭代应用时可以预测对规划最直接相关的量：奖励、动作选择策略和价值函数。当在57种不同的Atari游戏中进行评估时——这是测试AI技术的经典视频游戏环境，历史上基于模型的规划方法在此环境中表现不佳——我们的新算法达到了新的技术水平。在围棋、象棋和将棋上进行评估时，即使没有任何游戏规则的知识，MuZero也达到了与AlphaZero算法相当的超人水平，而AlphaZero算法是在提供游戏规则的情况下实现这一表现的。

源 PDF