8 个月前

计算机视觉

计算机视觉

Raphaël Chekroun Marin Toromanoff Sascha Hornauer Fabien Moutarde

摘要

深度强化学习（DRL）已被证明在多个复杂的决策应用中有效，例如自动驾驶和机器人技术。然而，DRL 以其高样本复杂性和缺乏稳定性而著称。先验知识，如专家演示，虽然经常可用，但难以利用来缓解这些问题。本文提出了一种新的方法——通用强化模仿（GRI），该方法结合了探索和专家数据的优势，并且可以轻松地应用于任何离线策略的强化学习算法上。我们做出一个简化假设：专家演示可以被视为完美数据，其底层策略获得恒定的高奖励。基于这一假设，GRI 引入了离线演示代理的概念。该代理发送的专家数据与来自在线强化学习探索代理的经验同时处理且无法区分。我们展示了我们的方法在基于视觉的城市环境中自动驾驶方面取得了显著改进。此外，我们在不同离线策略强化学习算法上对 Mujoco 连续控制任务进行了 GRI 方法的有效性验证。我们的方法在 CARLA 排行榜上排名第一，并且比之前的最先进方法 World on Rails 提升了 17% 的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Raphaël Chekroun Marin Toromanoff Sascha Hornauer Fabien Moutarde

摘要

深度强化学习（DRL）已被证明在多个复杂的决策应用中有效，例如自动驾驶和机器人技术。然而，DRL 以其高样本复杂性和缺乏稳定性而著称。先验知识，如专家演示，虽然经常可用，但难以利用来缓解这些问题。本文提出了一种新的方法——通用强化模仿（GRI），该方法结合了探索和专家数据的优势，并且可以轻松地应用于任何离线策略的强化学习算法上。我们做出一个简化假设：专家演示可以被视为完美数据，其底层策略获得恒定的高奖励。基于这一假设，GRI 引入了离线演示代理的概念。该代理发送的专家数据与来自在线强化学习探索代理的经验同时处理且无法区分。我们展示了我们的方法在基于视觉的城市环境中自动驾驶方面取得了显著改进。此外，我们在不同离线策略强化学习算法上对 Mujoco 连续控制任务进行了 GRI 方法的有效性验证。我们的方法在 CARLA 排行榜上排名第一，并且比之前的最先进方法 World on Rails 提升了 17% 的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供