
摘要
规划在已知环境动态的控制任务中已经取得了显著成功。为了在未知环境中利用规划,智能体需要通过与世界的交互来学习环境动态。然而,学习足够精确的动态模型以支持规划一直是一个长期存在的挑战,特别是在基于图像的领域。我们提出了一种深度规划网络(Deep Planning Network,简称PlaNet),这是一种完全基于模型的智能体,它从图像中学习环境动态,并通过在潜在空间中进行快速在线规划来选择动作。为了实现高性能,动态模型必须能够准确预测多个时间步长后的奖励。为此,我们采用了一个包含确定性和随机转换组件的潜在动态模型。此外,我们提出了一种多步变分推断目标,称为潜在超前(latent overshooting)。仅使用像素观察数据,我们的智能体解决了具有接触动力学、部分可观测性和稀疏奖励的连续控制任务,这些任务的难度超过了以往通过学习模型进行规划所解决的任务。PlaNet使用的剧集数量显著较少,并且最终性能接近甚至有时超过强大的无模型算法。
代码仓库
cross32768/PlaNet_PyTorch
pytorch
GitHub 中提及
vaibhavsaxena11/cwvae
tf
GitHub 中提及
Yizhao111/dreamer-pytorch
pytorch
GitHub 中提及
juliuskunze/cwvae-jax
jax
GitHub 中提及
Kaixhin/PlaNet
pytorch
GitHub 中提及
google-research/planet
官方
tf
GitHub 中提及
simonzhan-code/step-wise_saferl_pixel
pytorch
GitHub 中提及
chandar-lab/LoCA2
tf
GitHub 中提及
xingyu-lin/softagent
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-deepmind-cup-catch | PlaNet | Return: 914 |
| continuous-control-on-deepmind-walker-walk | PlaNet | Return: 890 |