4 个月前

从像素中学习潜在动力学以进行规划

从像素中学习潜在动力学以进行规划

摘要

规划在已知环境动态的控制任务中已经取得了显著成功。为了在未知环境中利用规划,智能体需要通过与世界的交互来学习环境动态。然而,学习足够精确的动态模型以支持规划一直是一个长期存在的挑战,特别是在基于图像的领域。我们提出了一种深度规划网络(Deep Planning Network,简称PlaNet),这是一种完全基于模型的智能体,它从图像中学习环境动态,并通过在潜在空间中进行快速在线规划来选择动作。为了实现高性能,动态模型必须能够准确预测多个时间步长后的奖励。为此,我们采用了一个包含确定性和随机转换组件的潜在动态模型。此外,我们提出了一种多步变分推断目标,称为潜在超前(latent overshooting)。仅使用像素观察数据,我们的智能体解决了具有接触动力学、部分可观测性和稀疏奖励的连续控制任务,这些任务的难度超过了以往通过学习模型进行规划所解决的任务。PlaNet使用的剧集数量显著较少,并且最终性能接近甚至有时超过强大的无模型算法。

代码仓库

cross32768/PlaNet_PyTorch
pytorch
GitHub 中提及
vaibhavsaxena11/cwvae
tf
GitHub 中提及
Yizhao111/dreamer-pytorch
pytorch
GitHub 中提及
juliuskunze/cwvae-jax
jax
GitHub 中提及
Kaixhin/PlaNet
pytorch
GitHub 中提及
google-research/planet
官方
tf
GitHub 中提及
chandar-lab/LoCA2
tf
GitHub 中提及
xingyu-lin/softagent
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从像素中学习潜在动力学以进行规划 | 论文 | HyperAI超神经