强化学习(RL) 预训练和指令微调SFT让模型学会了知识并掌握了对话格式但这还不够。模型可能会给出极其啰嗦的回答或者一本正经地胡说八道幻觉。强化学习RL特别是人类反馈强化学习RLHF就是用来解决这些问题的“终极对齐手段”。我们可以把这个过程拆解为一个非常有趣的“四步闭环”1. 模型生成学生答卷首先给大模型输入一个提示词Prompt比如“如何评价某部电影”。模型会根据它的知识生成多个不同版本、不同风格的回答。2. 人类排序老师打分接下来人类评估员通常是专业的标注员会像老师批改作文一样对这几个回答进行对比和排序。比如A回答比B回答好B回答比C回答好。这一步非常关键它把人类主观的“好坏标准”转化成了客观的“偏好数据”。3. 奖励模型培养“评委”大模型有成百上千亿个参数让人类去给每一次生成都打分是不现实的。所以我们需要利用刚才人类排好的数据专门训练一个**“奖励模型Reward Model”**。这个模型就像一个被人类教导过的“AI评委”它学会了人类的偏好以后只要看到任何回答它就能自动给出一个分数奖励信号。4. 强化学习优化疯狂刷题这是最硬核的一步。大模型再次开始生成回答但这次它的目标变了它要努力生成那些能让“AI评委”打高分的回答。在这个过程中模型会不断进行“试错-反馈-改进”的循环如果生成了评委喜欢的内容就获得正反馈加分如果生成了啰嗦、有害或错误的内容就获得负反馈扣分。通过一种叫做PPO近端策略优化的强化学习算法模型会不断微调自己的参数最大化自己获得的奖励。强化学习带来的三大“超能力”引入强化学习后大模型会发生质的飞跃更懂人类意图它不再仅仅是机械地接话而是真正理解了人类想要什么样的帮助。大幅减少“幻觉”通过定制奖励函数模型学会了“知之为知之不知为不知”。如果模型不知道答案强行瞎编会被扣大分而坦诚说不知道反而能拿中等分数这就逼迫模型变得更诚实。动态进化传统的训练是静态的而强化学习让模型具备了在未知环境中自主探索、持续优化的能力。前沿进化从 RLHF 到更聪明的算法强化学习领域也在飞速进化。传统的 RLHF 需要同时训练四个模型非常消耗算力。现在的最新技术比如 DeepSeek 采用的GRPO算法已经简化了流程不再需要单独训练复杂的奖励模型而是通过组内相对奖励来优化不仅省钱还能让模型在数学推理等复杂任务上表现得更聪明。