Command Palette
Search for a command to run...
John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

摘要
我们提出了一类新的强化学习策略梯度方法,该方法通过与环境交互采样数据,并使用随机梯度上升优化一个“替代”目标函数,交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新,而我们提出了一种新颖的目标函数,允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化(Proximal Policy Optimization, PPO),它们具有一些信任区域策略优化(Trust Region Policy Optimization, TRPO)的优点,但实现起来更加简单,适用范围更广,并且在样本复杂度方面表现出更好的性能(实证结果)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏玩法,并展示了PPO优于其他在线策略梯度方法,总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | PPO | Score: 175.14±44.94 |
| neural-architecture-search-on-nats-bench | PPO (Schulman et al., 2017) | Test Accuracy: 44.95 |
| neural-architecture-search-on-nats-bench-1 | PPO (Schulman et al., 2017) | Test Accuracy: 94.02 |
| neural-architecture-search-on-nats-bench-2 | PPO (Schulman et al., 2017) | Test Accuracy: 71.68 |
| openai-gym-on-ant-v4 | PPO | Average Return: 608.97 |
| openai-gym-on-halfcheetah-v4 | PPO | Average Return: 6006.11 |
| openai-gym-on-hopper-v4 | PPO | Average Return: 790.77 |
| openai-gym-on-humanoid-v4 | PPO | Average Return: 925.89 |
| openai-gym-on-walker2d-v4 | PPO | Average Return: 2739.81 |