7 个月前

统一多模态

Danijar Hafner Timothy Lillicrap Ian Fischer Ruben Villegas David Ha Honglak Lee James Davidson

摘要

规划在已知环境动态的控制任务中已经取得了显著成功。为了在未知环境中利用规划，智能体需要通过与世界的交互来学习环境动态。然而，学习足够精确的动态模型以支持规划一直是一个长期存在的挑战，特别是在基于图像的领域。我们提出了一种深度规划网络（Deep Planning Network，简称PlaNet），这是一种完全基于模型的智能体，它从图像中学习环境动态，并通过在潜在空间中进行快速在线规划来选择动作。为了实现高性能，动态模型必须能够准确预测多个时间步长后的奖励。为此，我们采用了一个包含确定性和随机转换组件的潜在动态模型。此外，我们提出了一种多步变分推断目标，称为潜在超前（latent overshooting）。仅使用像素观察数据，我们的智能体解决了具有接触动力学、部分可观测性和稀疏奖励的连续控制任务，这些任务的难度超过了以往通过学习模型进行规划所解决的任务。PlaNet使用的剧集数量显著较少，并且最终性能接近甚至有时超过强大的无模型算法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

统一多模态

Danijar Hafner Timothy Lillicrap Ian Fischer Ruben Villegas David Ha Honglak Lee James Davidson

摘要

规划在已知环境动态的控制任务中已经取得了显著成功。为了在未知环境中利用规划，智能体需要通过与世界的交互来学习环境动态。然而，学习足够精确的动态模型以支持规划一直是一个长期存在的挑战，特别是在基于图像的领域。我们提出了一种深度规划网络（Deep Planning Network，简称PlaNet），这是一种完全基于模型的智能体，它从图像中学习环境动态，并通过在潜在空间中进行快速在线规划来选择动作。为了实现高性能，动态模型必须能够准确预测多个时间步长后的奖励。为此，我们采用了一个包含确定性和随机转换组件的潜在动态模型。此外，我们提出了一种多步变分推断目标，称为潜在超前（latent overshooting）。仅使用像素观察数据，我们的智能体解决了具有接触动力学、部分可观测性和稀疏奖励的连续控制任务，这些任务的难度超过了以往通过学习模型进行规划所解决的任务。PlaNet使用的剧集数量显著较少，并且最终性能接近甚至有时超过强大的无模型算法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供