Ankesh AnandJacob WalkerYazhe LiEszter VértesJulian SchrittwieserSherjil OzairThéophane WeberJessica B. Hamrick

摘要
模型基础强化学习(model-based reinforcement learning)的一个核心承诺,是能够利用对世界的内部模型,在新颖环境与任务中进行泛化预测。然而,由于现有研究在评估泛化能力时主要聚焦于无模型(model-free)智能体,模型基础智能体的泛化能力至今仍缺乏充分理解。本文首次系统性地对比评估了模型基础智能体与其无模型对手在泛化能力上的表现。我们以强大的模型基础智能体MuZero(Schrittwieser等,2020)为研究对象,评估其在程序化泛化(procedural generalization)和任务泛化(task generalization)两个维度上的性能。我们识别出影响程序化泛化的三个关键因素:规划能力(planning)、自监督表征学习(self-supervised representation learning)以及程序化数据多样性(procedural data diversity)。通过有机结合这三项技术,我们在Procgen基准测试(Cobbe等,2019)中实现了当前最优的泛化性能与数据效率。然而,我们发现这些因素在Meta-World基准测试(Yu等,2019)的任务泛化任务中并未始终带来同等收益,表明任务间的迁移仍面临挑战,可能需要与程序化泛化不同的方法论。综上所述,我们认为,构建真正具备泛化能力的智能体,必须超越传统的单任务、无模型范式,转向在丰富、程序化、多任务环境中进行自监督训练的模型基础智能体。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| meta-learning-on-ml10 | MZ | Meta-test success rate (zero-shot): 26.5 Meta-train success rate: 97.6% |
| meta-learning-on-ml10 | MZ+Recon | Meta-test success rate (zero-shot): 25 Meta-train success rate: 97.8% |
| meta-learning-on-ml45 | MZ+Recon | Meta-test success rate (zero-shot): 18.5 Meta-train success rate: 74.9 |
| meta-learning-on-ml45 | MZ | Meta-test success rate (zero-shot): 17.7 Meta-train success rate: 77.2 |