强化学习（2）—-Q-learning

1、Q-learning主要是Q表：当前状态s1，接下来可以有两个动作选择，看电视a1和学习a2，对于agent人来说，可以根据reward来作出决策（Policy）。目的就是得到奖励最大。 Q-l … 继续阅读强化学习（2）—-Q-learning