3 个月前

决策变换器:通过序列建模实现强化学习

决策变换器:通过序列建模实现强化学习

摘要

我们提出一种将强化学习(Reinforcement Learning, RL)抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性,以及语言建模领域(如GPT-x和BERT)所取得的诸多进展。具体而言,我们提出了决策Transformer(Decision Transformer),该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同,决策Transformer仅通过一个因果掩码(causally masked)的Transformer结构,直接输出最优动作。通过将自回归模型以期望回报(奖励)目标、历史状态和动作作为条件,该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单,决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上,性能达到或超越了当前最先进的无模型离线强化学习基准方法。

基准测试

基准方法指标
atari-games-on-atari-2600-breakoutDT
Score: 267.5
atari-games-on-atari-2600-pongDT
Score: 17.1
atari-games-on-atari-2600-qbertDT
Score: 25.1
atari-games-on-atari-2600-seaquestDT
Score: 2.4
d4rl-on-d4rlDecision Transformer (DT)
Average Reward: 72.2
offline-rl-on-d4rlDecision Transformer (DT)
Average Reward: 73.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
决策变换器:通过序列建模实现强化学习 | 论文 | HyperAI超神经