Lili ChenKevin LuAravind RajeswaranKimin LeeAditya GroverMichael LaskinPieter AbbeelAravind SrinivasIgor Mordatch

摘要
我们提出一种将强化学习(Reinforcement Learning, RL)抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性,以及语言建模领域(如GPT-x和BERT)所取得的诸多进展。具体而言,我们提出了决策Transformer(Decision Transformer),该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同,决策Transformer仅通过一个因果掩码(causally masked)的Transformer结构,直接输出最优动作。通过将自回归模型以期望回报(奖励)目标、历史状态和动作作为条件,该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单,决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上,性能达到或超越了当前最先进的无模型离线强化学习基准方法。
代码仓库
Amadeus979/decision-transformer
pytorch
GitHub 中提及
kzl/decision-transformer
官方
pytorch
GitHub 中提及
nikhilbarhate99/min-decision-transformer
pytorch
GitHub 中提及
corl-team/CORL
jax
GitHub 中提及
zzmtsvv/rl_task
pytorch
GitHub 中提及
takuseno/d3rlpy
pytorch
GitHub 中提及
LAS1520/Gato-A-Generalist-Agent
pytorch
GitHub 中提及
RamiSketcher/decision-transformer-ammi
pytorch
GitHub 中提及
opendilab/DI-engine
pytorch
GitHub 中提及
cannylab/casual_overhypotheses
pytorch
GitHub 中提及
yun-kwak/decision-transformer-jax
jax
GitHub 中提及
ml-jku/l2m
pytorch
GitHub 中提及
typoverflow/OfflineRL-Lib
pytorch
GitHub 中提及
facebookresearch/salina
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-breakout | DT | Score: 267.5 |
| atari-games-on-atari-2600-pong | DT | Score: 17.1 |
| atari-games-on-atari-2600-qbert | DT | Score: 25.1 |
| atari-games-on-atari-2600-seaquest | DT | Score: 2.4 |
| d4rl-on-d4rl | Decision Transformer (DT) | Average Reward: 72.2 |
| offline-rl-on-d4rl | Decision Transformer (DT) | Average Reward: 73.5 |