Command Palette
Search for a command to run...
Julian Schrittwieser Thomas Hubert Amol Mandhane Mohammadamin Barekatain Ioannis Antonoglou David Silver

摘要
从少量数据中高效学习一直是基于模型的强化学习研究的核心目标,无论是在与环境实时交互的在线场景,还是在从固定数据集学习的离线场景中均如此。然而,迄今为止尚无单一统一的算法能够在两种设置下均展现出最先进性能。本文提出了一种名为Reanalyse的算法,该算法利用基于模型的策略与价值改进算子,在现有数据点上生成新的优化训练目标,从而实现对数据预算跨越多个数量级的高效学习。此外,我们进一步证明,Reanalyse还可用于完全基于示范数据进行学习,无需任何环境交互,适用于离线强化学习(offline RL)场景。通过将Reanalyse与MuZero算法相结合,我们提出了MuZero Unplugged——一种适用于任意数据预算的统一算法,涵盖离线强化学习情形。与以往工作不同,本算法无需针对非策略(off-policy)或离线强化学习设置进行特殊调整。MuZero Unplugged在RL Unplugged离线强化学习基准测试中取得了新的最先进水平,同时在标准2亿帧设置下的Atari在线强化学习基准测试中也刷新了性能纪录。