4 个月前

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

我们提出一种将强化学习（Reinforcement Learning, RL）抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性，以及语言建模领域（如GPT-x和BERT）所取得的诸多进展。具体而言，我们提出了决策Transformer（Decision Transformer），该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同，决策Transformer仅通过一个因果掩码（causally masked）的Transformer结构，直接输出最优动作。通过将自回归模型以期望回报（奖励）目标、历史状态和动作作为条件，该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单，决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上，性能达到或超越了当前最先进的无模型离线强化学习基准方法。

代码仓库

Amadeus979/decision-transformer

pytorch

GitHub 中提及

pytorch/rl/tree/main/examples/decision_transformer

jax

MindCode-4/code-3/tree/main/decision_transformer

mindspore

kzl/decision-transformer

官方

pytorch

GitHub 中提及

pwc-1/Paper-8/tree/main/decision_transformer

mindspore

nikhilbarhate99/min-decision-transformer

pytorch

GitHub 中提及

corl-team/CORL

jax

GitHub 中提及

2024-MindSpore-1/Code2/tree/main/model-1/decision_transformer

mindspore

zzmtsvv/rl_task

pytorch

GitHub 中提及

takuseno/d3rlpy

pytorch

GitHub 中提及

LAS1520/Gato-A-Generalist-Agent

pytorch

GitHub 中提及

Delavari-Alireza/Decision_Transformer_Sequence-Modeling_Deep_Reinforcement_Learning

pytorch

GitHub 中提及

RamiSketcher/decision-transformer-ammi

pytorch

GitHub 中提及

HzcIrving/DecisionTransformer_StepbyStep

pytorch

opendilab/DI-engine

pytorch

GitHub 中提及

cannylab/casual_overhypotheses

pytorch

GitHub 中提及

yun-kwak/decision-transformer-jax

jax

GitHub 中提及

ml-jku/l2m

pytorch

GitHub 中提及

typoverflow/OfflineRL-Lib

pytorch

GitHub 中提及

facebookresearch/salina

jax

GitHub 中提及

基准测试

基准	方法	指标
atari-games-on-atari-2600-breakout	DT	Score: 267.5
atari-games-on-atari-2600-pong	DT	Score: 17.1
atari-games-on-atari-2600-qbert	DT	Score: 25.1
atari-games-on-atari-2600-seaquest	DT	Score: 2.4
d4rl-on-d4rl	Decision Transformer (DT)	Average Reward: 72.2
offline-rl-on-d4rl	Decision Transformer (DT)	Average Reward: 73.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

4 个月前

决策变换器：通过序列建模实现强化学习

查看论文详情

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

代码仓库

Amadeus979/decision-transformer

pytorch

GitHub 中提及

pytorch/rl/tree/main/examples/decision_transformer

jax

MindCode-4/code-3/tree/main/decision_transformer

mindspore

kzl/decision-transformer

官方

pytorch

GitHub 中提及

pwc-1/Paper-8/tree/main/decision_transformer

mindspore

nikhilbarhate99/min-decision-transformer

pytorch

GitHub 中提及

corl-team/CORL

jax

GitHub 中提及

2024-MindSpore-1/Code2/tree/main/model-1/decision_transformer

mindspore

zzmtsvv/rl_task

pytorch

GitHub 中提及

takuseno/d3rlpy

pytorch

GitHub 中提及

LAS1520/Gato-A-Generalist-Agent

pytorch

GitHub 中提及

Delavari-Alireza/Decision_Transformer_Sequence-Modeling_Deep_Reinforcement_Learning

pytorch

GitHub 中提及

RamiSketcher/decision-transformer-ammi

pytorch

GitHub 中提及

HzcIrving/DecisionTransformer_StepbyStep

pytorch

opendilab/DI-engine

pytorch

GitHub 中提及

cannylab/casual_overhypotheses

pytorch

GitHub 中提及

yun-kwak/decision-transformer-jax

jax

GitHub 中提及

ml-jku/l2m

pytorch

GitHub 中提及

typoverflow/OfflineRL-Lib

pytorch

GitHub 中提及

facebookresearch/salina

jax

GitHub 中提及

基准测试

基准	方法	指标
atari-games-on-atari-2600-breakout	DT	Score: 267.5
atari-games-on-atari-2600-pong	DT	Score: 17.1
atari-games-on-atari-2600-qbert	DT	Score: 25.1
atari-games-on-atari-2600-seaquest	DT	Score: 2.4
d4rl-on-d4rl	Decision Transformer (DT)	Average Reward: 72.2
offline-rl-on-d4rl	Decision Transformer (DT)	Average Reward: 73.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

决策变换器：通过序列建模实现强化学习

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters