简介

值函数希望学习一个价值函数,这个值可以用于评估当前决策的分值。策略函数希望学习一个策略函数,拿到其动作的概率分布。

Actor-Critic是在策略函数的基础上,额外引入学习价值函数,来帮助策略函数更好地学习。

下面这个图很好表示了两者关系。

重点看actor-critic算法update函数log_probs部分。actor采用策略,critic来进行评价。