《CS336 Spring 2025 Lecture 16: RLVR》学习笔记

上节课我们讲了 RLHF 的核心方法 SFT 和 DPO。SFT 通过专家演示数据进行行为克隆,DPO 则通过成对偏好数据直接优化策略。但 RLHF 存在两个根本性问题——过度优化校准性丧失——这两个问题限制了 RLHF 的进一步发展。

本节课我们来看一种新的范式:基于可验证奖励的强化学习(RLVR, Reinforcement Learning from Verifiable Rewards),这是过去半年驱动 o1、DeepSeek R1 等新一代推理模型爆发的核心技术。

课程结构:

  1. 为什么需要 RLVR:从 PPO 到 GRPO 的算法演进
  2. GRPO 核心原理与缺陷修正
  3. 工业界案例研究:DeepSeek R1、Kimi K1.5、Qwen 3

一、为什么需要新的RL算法?

先说一个冷知识:InstructGPT 提出的 PPO 方案虽然经典,但几乎没有实际产品在使用它。原因是 PPO 实现太复杂了——需要同时维护策略模型、价值模型、奖励模型三个大模型,还有复杂的优势估计模块和脆弱的奖励塑形。行业内有"PPO 的 37 个实现细节"的说法,任何一个细节出错都会导致性能崩溃。

算法 优势 局限性 不适合RLVR的原因
PPO 通用RL领域最成熟的算法 实现极其复杂;需要和策略一样大的价值模型,显存占用翻倍 工程成本过高,难以大规模部署
DPO 实现简单,训练稳定 天然适合成对偏好数据;本质是离线算法 可验证奖励场景(如数学题对错)没有成对结构

RLVR 场景的核心特点:数学、代码等问题可以自动判断对错,不需要人类偏好标注,也没有成对数据结构。这正是 RL 可以发挥全部威力的场景——奖励是无噪声的、可验证的。


二、PPO快速回顾:理论简单,实现噩梦

PPO 的演进路径:策略梯度 → TRPO → PPO

  1. 策略梯度:最基础的 RL 算法,方差极高

    θEpθ[R(z)]=Epθ[R(z)θlogpθ(z)]\nabla _{\theta }E_{p_{\theta }}[R(z)]=E_{p_{\theta }}[R(z)\nabla _{\theta }log p_{\theta}(z)]

  2. TRPO:通过 KL 散度约束策略更新幅度,解决策略梯度的不稳定性问题

  3. PPO-Clip:用简单的裁剪操作替代复杂的 KL 约束,成为工业界标准

    LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]L^{CLIP}(\theta)=\hat{\mathbb{E}}_{t}\left[ min \left( r_t(\theta) \hat{A}_t, clip(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]

PPO 的实现复杂度来自几个方面:

  • 需要同时维护策略模型价值模型奖励模型三个大模型
  • 复杂的**广义优势估计(GAE)**模块
  • 脆弱的奖励塑形:逐 token KL 惩罚需要裁剪到 0 以避免数值不稳定

三、GRPO:为大语言模型量身定制的RL算法

GRPO(组相对策略优化)由 DeepSeek 在 2024 年提出,核心设计目标是去掉价值模型,大幅简化实现

1. 核心思想

  • 保留 PPO 的裁剪机制和 KL 正则化
  • 组内归一化的奖励替代复杂的价值函数和优势估计
  • 对每个问题(组)采样 G 个回答,用组内奖励的统计量计算优势

2. GRPO数学公式

优势计算(核心创新):组内奖励的 z 分数

Ai=rimean({r1,r2,,rG})std({r1,r2,,rG})+1e4A_{i}=\frac{r_{i}-mean\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)}{std\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)+1e-4}

  • 组内均值作为自然基线,自动消除问题难度差异的影响
  • 除以标准差做归一化,1e-4 是防止除零的数值稳定项

完整目标函数

TGRPO(θ)=E[1Gi=1G(min(πθ(oiq)πθold(oiq)Ai,clip(πθ(oiq)πθold(oiq),1ϵ,1+ϵ)Ai)βDKL(πθπref))]\mathcal{T}_{GRPO}(\theta)=\mathbb{E}\left[ \frac{1}{G} \sum_{i=1}^{G}\left(min \left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old}}\left(o_{i} | q\right)} A_{i}, clip\left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old}}\left(o_{i} | q\right)}, 1-\epsilon, 1+\epsilon\right) A_{i}\right)-\beta \mathbb{D}_{KL}\left(\pi_{\theta} \| \pi_{ref}\right)\right) \right]

改进的 KL 估计:使用控制变量技术降低方差

DKL(πθπref)=πref(oiq)πθ(oiq)logπref(oiq)πθ(oiq)1\mathbb{D}_{KL}\left(\pi_{\theta}|| \pi_{ref}\right)=\frac{\pi_{ref}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-log \frac{\pi_{ref}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-1

3. GRPO的巨大优势

  • 实现极其简单:核心代码不到 100 行,不需要价值模型
  • 显存占用减半:只需要维护一个策略模型
  • 训练稳定:在语言模型的上下文老虎机设定下表现优异

四、Dr. GRPO:缺陷与修正

2025 年的研究指出原始 GRPO 存在两个数学上的缺陷,导致了一些反直觉的现象:

1. 两个数学缺陷

缺陷一:除以标准差破坏了梯度无偏性

  • 基线化只能减去与动作无关的项,除以标准差不在 Sutton & Barto 的理论框架内
  • 导致算法偏向优化太容易或太难的问题(这些问题的奖励标准差小,梯度被放大),减慢收敛速度

缺陷二:长度归一化导致错误的长度激励

  • 正确回答:越短奖励越高 → 模型倾向于生成极短的正确回答
  • 错误回答:越长惩罚越小 → 模型答错时会生成极长的回答来"混过去"
  • 这就是很多推理模型生成超长思维链(CoT)的根本原因,而非"模型在努力思考"

2. Dr. GRPO修正方案

  • 去掉标准差归一化,仅保留组内均值基线
  • 去掉长度归一化项
  • 结果:奖励相当的情况下,输出长度稳定在合理水平,不会无限增长

五、推理模型训练案例研究

5.1 DeepSeek R1:极简RL配方的胜利

R1 是首个全面匹配 OpenAI o1 性能的开源模型,其最大贡献是证明了基于结果的简单 RL 就足够实现顶级推理能力,不需要复杂的过程奖励模型(PRM)或蒙特卡洛树搜索(MCTS)。

R1 Zero(受控实验设置)

  • 基础模型:DeepSeek V3
  • 奖励设计:二元准确性奖励(对/错)+ 格式奖励(强制使用``标签)
  • 结果:仅用纯 RL 就达到了接近 o1 的性能
  • 观察到的现象:训练过程中 CoT 长度持续增加;模型学会了回溯和"啊哈时刻"
  • 后续研究表明:这些现象更多是 GRPO 缺陷导致的,而非模型涌现的高级能力

完整R1流水线

  1. 长 CoT SFT 初始化:用少量高质量长思维链数据微调,解决 RL 冷启动问题

    • 讲师洞见:基础模型已经具备强大的思考能力,SFT 只是在启动和提取这些能力,仅需 1000 个左右的高质量样本就能获得显著提升
  2. GRPO 强化学习:在 R1 Zero 基础上增加语言一致性奖励,防止模型在 CoT 中混合多种语言

  3. 通用后训练:先做通用 SFT(结合推理和非推理数据),再用 GRPO 做 RLHF 对齐

两个重要的负面结果

R1 论文最有价值的部分其实是它的"失败实验":

  1. 过程奖励模型(PRM)没用:虽然 PRM 能提供更细粒度的反馈,但训练成本极高,且最终性能不如简单的结果奖励
  2. 蒙特卡洛树搜索(MCTS)没用:受 AlphaGo 启发的搜索方法在语言推理领域未能证明其价值

5.2 Kimi K1.5:并行路线的验证与工程优化

Kimi K1.5 与 R1 几乎同时发布,取得了相当的性能,提供了 RLVR 的另一种实现思路。

核心创新

  1. 数据策展策略

    • 领域平衡:用 LLM 自动标注问题领域,保证数据多样性
    • 难度过滤:只保留 SFT 模型"8次尝试都不能答对"的问题,排除太简单的样本
    • 排除选择题和判断题:防止模型通过随机猜测获得奖励
  2. 原创RL算法

    • 从 DPO 的非参数假设出发,用平方损失替代 Bradley-Terry 目标
    • 本质是带基线的策略梯度 + 显式正则化,与 GRPO 是趋同进化的结果
    • 天然没有 GRPO 的长度偏差问题
  3. 主动长度控制

    • 设计了专门的长度奖励:激励正确回答尽可能短,错误回答保持中等长度
    • 仅在训练后期开启,避免早期陷入局部最优
    • 结果:CoT 长度稳定在目标值,不会无限增长,大幅降低推理成本
  4. RL基础设施优化

    • 是首个详细讨论 RL 系统问题的论文
    • 采用训练-推理分离的架构:用 vLLM 做 rollout,Megatron 做训练
    • 解决了大模型权重在训练和推理进程间同步的难题

5.3 Qwen 3:低数据RL与推理可控性

Qwen 3 是最新的开源推理模型,在 R1 和 Kimi 的基础上进一步优化,最令人惊讶的发现是RLVR 的样本效率极高

核心发现

  • 仅用3995个高质量问题做 GRPO 训练,就获得了显著的推理性能提升
  • 验证了 RLVR 是一种极其高效的后训练方法

最大创新:思维模式融合

实现了单个模型同时支持思考模式和非思考模式,并能在测试时灵活控制思考预算:

  1. 用特殊标签``和<no_think>区分两种模式
  2. 训练模型在收到<no_think>标签时直接输出答案
  3. 支持思考过程提前终止:当思考长度达到用户设定的阈值时,插入特殊指令让模型立即给出答案
  4. 实现了优雅的性能-成本权衡:思考时间越长,性能越高,用户可以根据需求自由选择

重要观察

  • 通用 RLHF 会轻微损害模型的数学和 STEM 能力,但会显著提升通用任务和指令遵循能力
  • 这是目前推理模型普遍存在的权衡,未来需要进一步解决

六、课程总结

  1. RLHF 的核心瓶颈是人类反馈的噪声性和不可扩展性,导致严重的过度优化问题,而 RLVR 在数学、代码等可自动验证对错的领域可以发挥出全部威力
  2. GRPO 凭借其简单性和高效性,已经成为 RLVR 的主流算法,但原始版本存在缺陷需要注意
  3. 三个开源模型(R1、Kimi 1.5、Qwen 3)验证了一个极其简单的推理模型训练配方:长 CoT SFT 初始化 + 基于结果的 RL + 通用后训练
  4. 未来的核心方向是提升推理的可控性和效率,让用户可以灵活平衡性能和成本