Command Palette
Search for a command to run...
Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter

摘要
近期,研究人员在将深度学习用于学习特征表示的进展与强化学习相结合方面取得了显著进展。一些代表性成果包括:基于原始像素数据训练智能体玩雅达利(Atari)游戏,以及利用原始感官输入习得复杂的操作技能。然而,由于缺乏被广泛采纳的基准测试体系,连续控制领域中的进展难以量化。在本项工作中,我们提出了一套连续控制任务的基准测试套件,涵盖经典任务(如倒立摆的摆起控制)、高维状态与动作空间的任务(如三维人形机器人行走)、部分可观测任务以及具有层级结构的任务。基于对多种实现的强化学习算法进行系统性评估,我们报告了若干新发现。该基准测试套件及参考实现代码已开源发布于 https://github.com/rllab/rllab,旨在促进实验结果的可复现性,并鼓励其他研究者采用和进一步发展。