Command Palette
Search for a command to run...
Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine

摘要
无模型的深度强化学习(RL)算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而,这些方法通常面临两个主要问题:极高的样本复杂度和脆弱的收敛特性,这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中,我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法(Soft Actor-Critic)。在这个框架下,演员不仅旨在最大化预期奖励,还力求最大化熵。也就是说,在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法,我们的方法在一系列连续控制基准任务上实现了最先进的性能,超越了先前的策略内和策略外的方法。此外,我们证明了与其他离策略算法相比,我们的方法非常稳定,在不同的随机种子下能够实现非常相似的性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continuous-control-on-lunar-lander-openai-gym | SAC | Score: 284.59±0.97 |
| omniverse-isaac-gym-on-allegrohand | SAC | Average Return: 296.49 |
| omniverse-isaac-gym-on-ant | SAC | Average Return: 7717.93 |
| omniverse-isaac-gym-on-anymal | SAC | Average Return: 11.87 |
| omniverse-isaac-gym-on-frankacabinet | SAC | Average Return: 1721.98 |
| omniverse-isaac-gym-on-humanoid | SAC | Average Return: 4028.31 |
| omniverse-isaac-gym-on-ingenuity | SAC | Average Return: 5301.99 |
| openai-gym-on-ant-v4 | SAC | Average Return: 5208.09 |
| openai-gym-on-halfcheetah-v4 | SAC | Average Return: 15836.04 |
| openai-gym-on-hopper-v4 | SAC | Average Return: 2882.56 |
| openai-gym-on-humanoid-v4 | SAC | Average Return: 6211.50 |
| openai-gym-on-walker2d-v4 | SAC | Average Return: 5745.27 |