
摘要
构建具有规划能力的智能体一直是追求人工智能的主要挑战之一。基于树的规划方法在象棋和围棋等具有完美模拟器的复杂领域取得了巨大成功。然而,在现实世界问题中,环境的动力学往往非常复杂且未知。在这项工作中,我们提出了MuZero算法,该算法通过结合基于树的搜索和学习模型,在一系列具有挑战性和视觉复杂性的领域中实现了超越人类的表现,而无需了解这些领域的底层动力学。MuZero学习了一个模型,该模型在迭代应用时可以预测对规划最直接相关的量:奖励、动作选择策略和价值函数。当在57种不同的Atari游戏中进行评估时——这是测试AI技术的经典视频游戏环境,历史上基于模型的规划方法在此环境中表现不佳——我们的新算法达到了新的技术水平。在围棋、象棋和将棋上进行评估时,即使没有任何游戏规则的知识,MuZero也达到了与AlphaZero算法相当的超人水平,而AlphaZero算法是在提供游戏规则的情况下实现这一表现的。
代码仓库
k-lombard/CS4641_Project
tf
GitHub 中提及
SHRIVP/muzero
tf
GitHub 中提及
dmiracle/muzero-starter
tf
GitHub 中提及
DHDev0/Muzero
pytorch
GitHub 中提及
colindbrown/columbia-deep-learning-project
pytorch
GitHub 中提及
opendilab/LightZero
pytorch
GitHub 中提及
k-lombard/Deep-Learning-Chess-AI
tf
GitHub 中提及
Miatto-research-group/muzero
pytorch
GitHub 中提及
werner-duvaud/muzero-general
pytorch
GitHub 中提及
johan-gras/MuZero
tf
GitHub 中提及
ZiyuanMa/reversi
pytorch
GitHub 中提及
JuanCCS/muzero-jc
pytorch
GitHub 中提及
Zeta36/muzero
pytorch
GitHub 中提及
foersterrobert/MuZero
pytorch
GitHub 中提及
YuriCat/MuZeroJupyterExample
GitHub 中提及
kaesve/muzero
tf
GitHub 中提及
snjstudent/MyMuzero
tf
GitHub 中提及
koulanurag/muzero-pytorch
pytorch
GitHub 中提及