Command Palette
Search for a command to run...
Hado van Hasselt; Arthur Guez; David Silver

摘要
流行的Q学习算法在某些条件下已知会高估动作值。此前,尚不清楚在实际应用中这种高估是否普遍发生,是否会损害性能,以及是否可以普遍预防。本文对这些问题均给出了肯定的回答。具体而言,我们首先展示了最近的DQN算法(结合了Q学习和深度神经网络)在Atari 2600领域的某些游戏中存在显著的高估现象。然后,我们证明了双Q学习算法背后的思想(最初是在表格设置中提出的)可以推广到大规模函数逼近中。我们提出了一种针对DQN算法的具体改进方法,并证明该改进不仅如预期那样减少了观察到的高估现象,还显著提高了多个游戏的性能。
代码仓库
ianlimle/ItsMeMario
pytorch
GitHub 中提及
wtingda/DeepRLBreakout
tf
GitHub 中提及
wmol4/Pytorch_DDQN_Unity_Navigation
pytorch
GitHub 中提及
nbopardi/smb
tf
GitHub 中提及
shehrum/RL_Navigation
pytorch
GitHub 中提及
pathway/alphaxos
GitHub 中提及
Rabrg/dqn
pytorch
GitHub 中提及
hemilpanchiwala/Dueling_Network_Architectures
pytorch
GitHub 中提及
Denbergvanthijs/imbDRL
tf
GitHub 中提及
toni-sm/skrl
jax
aman-khurana/deep-q-learning
GitHub 中提及
jadag/DDQN_mario
tf
GitHub 中提及
daviddcho/supermario
pytorch
GitHub 中提及
dxyang/DQN_pytorch
pytorch
GitHub 中提及
cove9988/TradingGym
GitHub 中提及
utarumo/RL_implementation
tf
GitHub 中提及
zhengant/dqn_reversi
tf
GitHub 中提及
Roman-Kozachek/TradeBot
tf
GitHub 中提及
ifestus/rl
tf
GitHub 中提及
PeterJochem/Double_Deep_QLearning
tf
GitHub 中提及
mindspore-courses/Deep-Reinforcement-Learning-Algorithms-with-MindSpore
mindspore
GitHub 中提及
guillaumeboniface/bananaland
pytorch
GitHub 中提及
JonasRSV/DQN
tf
GitHub 中提及
yukezhu/tensorflow-reinforce
tf
GitHub 中提及
molomono/CartPole_Optimized_DDQN
tf
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
botforge/simplementation
pytorch
GitHub 中提及
anh-nn01/Lunar-Lander-Double-Deep-Q-Networks
tf
GitHub 中提及
near32/regym
pytorch
GitHub 中提及
1jsingh/rl_navigation
pytorch
GitHub 中提及
NikolausBerl/Udacity_DRLN_Navigation_Project
pytorch
GitHub 中提及
matthewsparr/Deep-Zork
GitHub 中提及
jezzarax/drlnd_p1_navigation
pytorch
GitHub 中提及
tensorlayer/RLzoo
tf
GitHub 中提及
fengsterooni/dql
pytorch
GitHub 中提及
rybread1/deep-rl-trex
tf
GitHub 中提及
kshitij-ingale/Reinforcement-Learning
tf
GitHub 中提及
paintception/Deep-Quality-Value-Family-
GitHub 中提及
KelvinYang0320/deepbots-panda
pytorch
GitHub 中提及
hamishs/JAX-RL
jax
GitHub 中提及
kochlisGit/autonomous-vehicles-agent
tf
GitHub 中提及
seacevedo/ReinforcementLearningProjects
pytorch
GitHub 中提及
amirmirzaei79/CartPole-DQN-And-DDQN
pytorch
GitHub 中提及
Adrelf/DRL-navigation
pytorch
GitHub 中提及
ZainRaza14/deepRL
pytorch
GitHub 中提及
RandyDeng/gym_connect4
GitHub 中提及
PeterJochem/Deep_RL
tf
GitHub 中提及
MEOWMEOW114/nd893-p1-navigation-banana
pytorch
GitHub 中提及
mindspore-courses/Rainbow-MindSpore
mindspore
GitHub 中提及
moduIo/Deep-Q-network
GitHub 中提及
kmdanielduan/DQN_Family_PyTorch
pytorch
GitHub 中提及
jvoynow/DQN-analysis-with-2048
GitHub 中提及
JustinStitt/acrobotDDQN
pytorch
GitHub 中提及
rybread1/DeepRlTrex
tf
GitHub 中提及
hemilpanchiwala/Dueling-Network-Architectures
pytorch
GitHub 中提及
tkcoding/Stock_DRL
pytorch
GitHub 中提及
OMS1996/Carla_The_RL_Self-Driving-Car
tf
GitHub 中提及
gznyyb/deep_reinforcement_learning_Pong
tf
GitHub 中提及
Curt-Park/rainbow-is-all-you-need
GitHub 中提及
paintception/Deep-Quality-Value-Family
GitHub 中提及
jeffery1236/Atari_DoubleDeepQNetwork
pytorch
GitHub 中提及
tkcoding/DeepRL
pytorch
GitHub 中提及
opendilab/DI-engine
pytorch
mohit8935/Deep-Q-Learning-Paper
pytorch
GitHub 中提及
JonasRSV/DQNTensorflow
tf
GitHub 中提及
yzheng51/rl-dino-run
pytorch
GitHub 中提及
HussonnoisMaxence/RL_Algorithms
pytorch
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
mightypirate1/DRL-Tetris
tf
GitHub 中提及
ssainz/reinforcement_learning_algorithms
pytorch
GitHub 中提及
xtma/simple-pytorch-rl
pytorch
GitHub 中提及
puppetect/TradingBot-tensorflow
tf
GitHub 中提及
shashwatsaxena571/DRL-navigation
pytorch
GitHub 中提及
xgfelicia/Reinforcement-Learning
pytorch
GitHub 中提及
austinsilveria/Banana-Collection-DQN
pytorch
GitHub 中提及
YuansongFeng/MadMario
pytorch
GitHub 中提及
chandar-lab/RLHive
pytorch
philtabor/Deep-Q-Learning-Paper-To-Code
pytorch
GitHub 中提及
marload/DeepRL-TensorFlow2
tf
GitHub 中提及
atavakol/action-branching-agents
tf
GitHub 中提及
microsoft/med-deadend
pytorch
GitHub 中提及
SayhoKim/tetrisRL
tf
GitHub 中提及
FaboNo/DRLND
pytorch
GitHub 中提及
yaxinchen666/dce_pricingRL
tf
GitHub 中提及
MOVzeroOne/DQN
pytorch
GitHub 中提及