8 个月前

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine

摘要

无模型的深度强化学习（RL）算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而，这些方法通常面临两个主要问题：极高的样本复杂度和脆弱的收敛特性，这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中，我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法（Soft Actor-Critic）。在这个框架下，演员不仅旨在最大化预期奖励，还力求最大化熵。也就是说，在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法，我们的方法在一系列连续控制基准任务上实现了最先进的性能，超越了先前的策略内和策略外的方法。此外，我们证明了与其他离策略算法相比，我们的方法非常稳定，在不同的随机种子下能够实现非常相似的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine

摘要

无模型的深度强化学习（RL）算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而，这些方法通常面临两个主要问题：极高的样本复杂度和脆弱的收敛特性，这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中，我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法（Soft Actor-Critic）。在这个框架下，演员不仅旨在最大化预期奖励，还力求最大化熵。也就是说，在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法，我们的方法在一系列连续控制基准任务上实现了最先进的性能，超越了先前的策略内和策略外的方法。此外，我们证明了与其他离策略算法相比，我们的方法非常稳定，在不同的随机种子下能够实现非常相似的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供