现代RL算法：DQN到PG，再到DPG

1.DQN 在传统RL算法中，依靠的是Policy和Value的协同迭代优化agent。而现代， DQN等value-based类算法弱化了Policy的存在，Policy成了Value … 继续阅读现代RL算法：DQN到PG，再到DPG