BLCL的博客小馆

RLHF-Actor-Critic

2024-05-07

值函数希望学习一个价值函数，这个值可以用于评估当前决策的分值。策略函数希望学习一个策略函数，拿到其动作的概率分布。

Actor-Critic是在策略函数的基础上，额外引入学习价值函数，来帮助策略函数更好地学习。

下面这个图很好表示了两者关系。

重点看actor-critic算法中update函数log_probs部分。actor采用策略，critic来进行评价。

标题: RLHF-Actor-Critic
来源: https://geasyheart.github.io/2024/05/07/RLHF-Actor-Critic/
版权: 此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：xmwbnews@gmail.com