chuanmx的个人博客

Note meaningful things down

0%

思从何来

我尝试理解RLHF(Reinforcement Learning with Human Feedback),意识到我认知中的Q-Learning与当前RL有很大的出入,于是我学习了一下一些Deep Q-Learning的知识,记录一下学习的过程。

我认知中的RL

RL最通俗而最通用的解释就是这么一个模型:

  1. 整个系统中有Agent、Envronment两个部分
  2. 通过观测Environment得到状态
  3. Agent根据选择最合适的动作
  4. 动作作用于Environment,得到奖励和新的状态
  5. Agent根据更新自己的策略
  6. 重复2-5步骤直至结束

对于每一个结局,我们都可以得到一个回报,其中是折扣因子(discount factor),用于衡量未来奖励的重要性。
而整个强化学习的目标就是找到一个策略,使得期望回报最大。

阅读全文 »

思路起源

最近碰巧需要研究使用LLM来处理一些数据,从一个研究AI4Network的哥们口中得知了一种用LLM做网络异常诊断的方法。该方法的核心思想是把大语言模型当做一个强大的序列处理工具,任由其对序列数据提取特征并做异常分类,简易流程图就像这样

阅读全文 »