Command Palette
Search for a command to run...
Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要
我们提出一种将强化学习(Reinforcement Learning, RL)抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性,以及语言建模领域(如GPT-x和BERT)所取得的诸多进展。具体而言,我们提出了决策Transformer(Decision Transformer),该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同,决策Transformer仅通过一个因果掩码(causally masked)的Transformer结构,直接输出最优动作。通过将自回归模型以期望回报(奖励)目标、历史状态和动作作为条件,该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单,决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上,性能达到或超越了当前最先进的无模型离线强化学习基准方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-breakout | DT | Score: 267.5 |
| atari-games-on-atari-2600-pong | DT | Score: 17.1 |
| atari-games-on-atari-2600-qbert | DT | Score: 25.1 |
| atari-games-on-atari-2600-seaquest | DT | Score: 2.4 |
| d4rl-on-d4rl | Decision Transformer (DT) | Average Reward: 72.2 |
| offline-rl-on-d4rl | Decision Transformer (DT) | Average Reward: 73.5 |