思从何来
我尝试理解RLHF(Reinforcement Learning with Human Feedback),意识到我认知中的Q-Learning与当前RL有很大的出入,于是我学习了一下一些Deep Q-Learning的知识,记录一下学习的过程。
我认知中的RL
RL最通俗而最通用的解释就是这么一个模型:
- 整个系统中有Agent、Envronment两个部分
- 通过观测Environment得到状态
- Agent根据选择最合适的动作
- 动作作用于Environment,得到奖励和新的状态
- Agent根据和更新自己的策略
- 重复2-5步骤直至结束
对于每一个结局,我们都可以得到一个回报,其中是折扣因子(discount factor),用于衡量未来奖励的重要性。
而整个强化学习的目标就是找到一个策略,使得期望回报最大。