上节课我们讲了 RLHF 的核心方法 SFT 和 DPO。SFT 通过专家演示数据进行行为克隆,DPO 则通过成对偏好数据直接优化策略。但 RLHF 存在两个根本性问题——过度优化和校准性丧失——这两个问题限制了 RLHF 的进一步发展。
本节课我们来看一种新的范式:基于可验证奖励的强化学习(RLVR, Reinforcement Learning from Verifiable Rewards),这是过去半年驱动 o1、DeepSeek R1 等新一代推理模型爆发的核心技术。
课程结构:
- 为什么需要 RLVR:从 PPO 到 GRPO 的算法演进
- GRPO 核心原理与缺陷修正
- 工业界案例研究:DeepSeek R1、Kimi K1.5、Qwen 3
一、为什么需要新的RL算法?
先说一个冷知识:InstructGPT 提出的 PPO 方案虽然经典,但几乎没有实际产品在使用它。原因是 PPO 实现太复杂了——需要同时维护策略模型、价值模型、奖励模型三个大模型,还有复杂的优势估计模块和脆弱的奖励塑形。行业内有"PPO 的 37 个实现细节"的说法,任何一个细节出错都会导致性能崩溃。
| 算法 | 优势 | 局限性 | 不适合RLVR的原因 |
|---|---|---|---|
| PPO | 通用RL领域最成熟的算法 | 实现极其复杂;需要和策略一样大的价值模型,显存占用翻倍 | 工程成本过高,难以大规模部署 |
| DPO | 实现简单,训练稳定 | 天然适合成对偏好数据;本质是离线算法 | 可验证奖励场景(如数学题对错)没有成对结构 |
RLVR 场景的核心特点:数学、代码等问题可以自动判断对错,不需要人类偏好标注,也没有成对数据结构。这正是 RL 可以发挥全部威力的场景——奖励是无噪声的、可验证的。
二、PPO快速回顾:理论简单,实现噩梦
PPO 的演进路径:策略梯度 → TRPO → PPO
-
策略梯度:最基础的 RL 算法,方差极高
-
TRPO:通过 KL 散度约束策略更新幅度,解决策略梯度的不稳定性问题
-
PPO-Clip:用简单的裁剪操作替代复杂的 KL 约束,成为工业界标准
PPO 的实现复杂度来自几个方面:
- 需要同时维护策略模型、价值模型、奖励模型三个大模型
- 复杂的**广义优势估计(GAE)**模块
- 脆弱的奖励塑形:逐 token KL 惩罚需要裁剪到 0 以避免数值不稳定
三、GRPO:为大语言模型量身定制的RL算法
GRPO(组相对策略优化)由 DeepSeek 在 2024 年提出,核心设计目标是去掉价值模型,大幅简化实现。
1. 核心思想
- 保留 PPO 的裁剪机制和 KL 正则化
- 用组内归一化的奖励替代复杂的价值函数和优势估计
- 对每个问题(组)采样 G 个回答,用组内奖励的统计量计算优势
2. GRPO数学公式
优势计算(核心创新):组内奖励的 z 分数
- 组内均值作为自然基线,自动消除问题难度差异的影响
- 除以标准差做归一化,1e-4 是防止除零的数值稳定项
完整目标函数
改进的 KL 估计:使用控制变量技术降低方差
3. GRPO的巨大优势
- 实现极其简单:核心代码不到 100 行,不需要价值模型
- 显存占用减半:只需要维护一个策略模型
- 训练稳定:在语言模型的上下文老虎机设定下表现优异
四、Dr. GRPO:缺陷与修正
2025 年的研究指出原始 GRPO 存在两个数学上的缺陷,导致了一些反直觉的现象:
1. 两个数学缺陷
缺陷一:除以标准差破坏了梯度无偏性
- 基线化只能减去与动作无关的项,除以标准差不在 Sutton & Barto 的理论框架内
- 导致算法偏向优化太容易或太难的问题(这些问题的奖励标准差小,梯度被放大),减慢收敛速度
缺陷二:长度归一化导致错误的长度激励
- 正确回答:越短奖励越高 → 模型倾向于生成极短的正确回答
- 错误回答:越长惩罚越小 → 模型答错时会生成极长的回答来"混过去"
- 这就是很多推理模型生成超长思维链(CoT)的根本原因,而非"模型在努力思考"
2. Dr. GRPO修正方案
- 去掉标准差归一化,仅保留组内均值基线
- 去掉长度归一化项
- 结果:奖励相当的情况下,输出长度稳定在合理水平,不会无限增长
五、推理模型训练案例研究
5.1 DeepSeek R1:极简RL配方的胜利
R1 是首个全面匹配 OpenAI o1 性能的开源模型,其最大贡献是证明了基于结果的简单 RL 就足够实现顶级推理能力,不需要复杂的过程奖励模型(PRM)或蒙特卡洛树搜索(MCTS)。
R1 Zero(受控实验设置)
- 基础模型:DeepSeek V3
- 奖励设计:二元准确性奖励(对/错)+ 格式奖励(强制使用``标签)
- 结果:仅用纯 RL 就达到了接近 o1 的性能
- 观察到的现象:训练过程中 CoT 长度持续增加;模型学会了回溯和"啊哈时刻"
- 后续研究表明:这些现象更多是 GRPO 缺陷导致的,而非模型涌现的高级能力
完整R1流水线
-
长 CoT SFT 初始化:用少量高质量长思维链数据微调,解决 RL 冷启动问题
- 讲师洞见:基础模型已经具备强大的思考能力,SFT 只是在启动和提取这些能力,仅需 1000 个左右的高质量样本就能获得显著提升
-
GRPO 强化学习:在 R1 Zero 基础上增加语言一致性奖励,防止模型在 CoT 中混合多种语言
-
通用后训练:先做通用 SFT(结合推理和非推理数据),再用 GRPO 做 RLHF 对齐
两个重要的负面结果
R1 论文最有价值的部分其实是它的"失败实验":
- 过程奖励模型(PRM)没用:虽然 PRM 能提供更细粒度的反馈,但训练成本极高,且最终性能不如简单的结果奖励
- 蒙特卡洛树搜索(MCTS)没用:受 AlphaGo 启发的搜索方法在语言推理领域未能证明其价值
5.2 Kimi K1.5:并行路线的验证与工程优化
Kimi K1.5 与 R1 几乎同时发布,取得了相当的性能,提供了 RLVR 的另一种实现思路。
核心创新
-
数据策展策略
- 领域平衡:用 LLM 自动标注问题领域,保证数据多样性
- 难度过滤:只保留 SFT 模型"8次尝试都不能答对"的问题,排除太简单的样本
- 排除选择题和判断题:防止模型通过随机猜测获得奖励
-
原创RL算法
- 从 DPO 的非参数假设出发,用平方损失替代 Bradley-Terry 目标
- 本质是带基线的策略梯度 + 显式正则化,与 GRPO 是趋同进化的结果
- 天然没有 GRPO 的长度偏差问题
-
主动长度控制
- 设计了专门的长度奖励:激励正确回答尽可能短,错误回答保持中等长度
- 仅在训练后期开启,避免早期陷入局部最优
- 结果:CoT 长度稳定在目标值,不会无限增长,大幅降低推理成本
-
RL基础设施优化
- 是首个详细讨论 RL 系统问题的论文
- 采用训练-推理分离的架构:用 vLLM 做 rollout,Megatron 做训练
- 解决了大模型权重在训练和推理进程间同步的难题
5.3 Qwen 3:低数据RL与推理可控性
Qwen 3 是最新的开源推理模型,在 R1 和 Kimi 的基础上进一步优化,最令人惊讶的发现是RLVR 的样本效率极高。
核心发现
- 仅用3995个高质量问题做 GRPO 训练,就获得了显著的推理性能提升
- 验证了 RLVR 是一种极其高效的后训练方法
最大创新:思维模式融合
实现了单个模型同时支持思考模式和非思考模式,并能在测试时灵活控制思考预算:
- 用特殊标签``和
<no_think>区分两种模式 - 训练模型在收到
<no_think>标签时直接输出答案 - 支持思考过程提前终止:当思考长度达到用户设定的阈值时,插入特殊指令让模型立即给出答案
- 实现了优雅的性能-成本权衡:思考时间越长,性能越高,用户可以根据需求自由选择
重要观察
- 通用 RLHF 会轻微损害模型的数学和 STEM 能力,但会显著提升通用任务和指令遵循能力
- 这是目前推理模型普遍存在的权衡,未来需要进一步解决
六、课程总结
- RLHF 的核心瓶颈是人类反馈的噪声性和不可扩展性,导致严重的过度优化问题,而 RLVR 在数学、代码等可自动验证对错的领域可以发挥出全部威力
- GRPO 凭借其简单性和高效性,已经成为 RLVR 的主流算法,但原始版本存在缺陷需要注意
- 三个开源模型(R1、Kimi 1.5、Qwen 3)验证了一个极其简单的推理模型训练配方:长 CoT SFT 初始化 + 基于结果的 RL + 通用后训练
- 未来的核心方向是提升推理的可控性和效率,让用户可以灵活平衡性能和成本