HyperAI

摘要

我们提出一种将强化学习（Reinforcement Learning, RL）抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性，以及语言建模领域（如GPT-x和BERT）所取得的诸多进展。具体而言，我们提出了决策Transformer（Decision Transformer），该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同，决策Transformer仅通过一个因果掩码（causally masked）的Transformer结构，直接输出最优动作。通过将自回归模型以期望回报（奖励）目标、历史状态和动作作为条件，该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单，决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上，性能达到或超越了当前最先进的无模型离线强化学习基准方法。

摘要

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

用 AI 构建 AI

HyperAI Newsletters