1.DQN 在传统RL算法中,依靠的是Policy和Value的协同迭代优化agent。 而现代, DQN等value-based类算法弱化了Policy的存在,Policy成了Value … Continue reading 现代RL算法:DQN到PG,再到DPG
1.DQN 在传统RL算法中,依靠的是Policy和Value的协同迭代优化agent。 而现代, DQN等value-based类算法弱化了Policy的存在,Policy成了Value … Continue reading 现代RL算法:DQN到PG,再到DPG