《CS336 Spring 2025 Lecture 16: RLVR》学习笔记

Val

2026-05-17 (Updated: 2026-05-17)

课程笔记

上节课我们讲了 RLHF 的核心方法 SFT 和 DPO。SFT 通过专家演示数据进行行为克隆，DPO 则通过成对偏好数据直接优化策略。但 RLHF 存在两个根本性问题——过度优化和校准性丧失——这两个问题限制了 RLHF 的进一步发展。

本节课我们来看一种新的范式：基于可验证奖励的强化学习（RLVR, Reinforcement Learning from Verifiable Rewards），这是过去半年驱动 o1、DeepSeek R1 等新一代推理模型爆发的核心技术。

课程结构：

为什么需要 RLVR：从 PPO 到 GRPO 的算法演进
GRPO 核心原理与缺陷修正
工业界案例研究：DeepSeek R1、Kimi K1.5、Qwen 3

一、为什么需要新的RL算法？

先说一个冷知识：InstructGPT 提出的 PPO 方案虽然经典，但几乎没有实际产品在使用它。原因是 PPO 实现太复杂了——需要同时维护策略模型、价值模型、奖励模型三个大模型，还有复杂的优势估计模块和脆弱的奖励塑形。行业内有"PPO 的 37 个实现细节"的说法，任何一个细节出错都会导致性能崩溃。

算法	优势	局限性	不适合RLVR的原因
PPO	通用RL领域最成熟的算法	实现极其复杂；需要和策略一样大的价值模型，显存占用翻倍	工程成本过高，难以大规模部署
DPO	实现简单，训练稳定	天然适合成对偏好数据；本质是离线算法	可验证奖励场景（如数学题对错）没有成对结构

RLVR 场景的核心特点：数学、代码等问题可以自动判断对错，不需要人类偏好标注，也没有成对数据结构。这正是 RL 可以发挥全部威力的场景——奖励是无噪声的、可验证的。

二、PPO快速回顾：理论简单，实现噩梦

PPO 的演进路径：策略梯度 → TRPO → PPO

策略梯度：最基础的 RL 算法，方差极高

$\nabla _{\theta }E_{p_{\theta }}[R(z)]=E_{p_{\theta }}[R(z)\nabla _{\theta }log p_{\theta}(z)]$
TRPO：通过 KL 散度约束策略更新幅度，解决策略梯度的不稳定性问题
PPO-Clip：用简单的裁剪操作替代复杂的 KL 约束，成为工业界标准

$L^{CLIP}(\theta)=\hat{\mathbb{E}}_{t}\left[ min \left( r_t(\theta) \hat{A}_t, clip(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]$

PPO 的实现复杂度来自几个方面：

需要同时维护策略模型、价值模型、奖励模型三个大模型
复杂的**广义优势估计（GAE）**模块
脆弱的奖励塑形：逐 token KL 惩罚需要裁剪到 0 以避免数值不稳定

三、GRPO：为大语言模型量身定制的RL算法

GRPO（组相对策略优化）由 DeepSeek 在 2024 年提出，核心设计目标是去掉价值模型，大幅简化实现。

1. 核心思想

保留 PPO 的裁剪机制和 KL 正则化
用组内归一化的奖励替代复杂的价值函数和优势估计
对每个问题（组）采样 G 个回答，用组内奖励的统计量计算优势

2. GRPO数学公式

优势计算（核心创新）：组内奖励的 z 分数

$A_{i}=\frac{r_{i}-mean\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)}{std\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)+1e-4}$

组内均值作为自然基线，自动消除问题难度差异的影响
除以标准差做归一化，1e-4 是防止除零的数值稳定项

完整目标函数

$\mathcal{T}_{GRPO}(\theta)=\mathbb{E}\left[ \frac{1}{G} \sum_{i=1}^{G}\left(min \left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old}}\left(o_{i} | q\right)} A_{i}, clip\left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old}}\left(o_{i} | q\right)}, 1-\epsilon, 1+\epsilon\right) A_{i}\right)-\beta \mathbb{D}_{KL}\left(\pi_{\theta} \| \pi_{ref}\right)\right) \right]$

改进的 KL 估计：使用控制变量技术降低方差

$\mathbb{D}_{KL}\left(\pi_{\theta}|| \pi_{ref}\right)=\frac{\pi_{ref}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-log \frac{\pi_{ref}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-1$

3. GRPO的巨大优势

实现极其简单：核心代码不到 100 行，不需要价值模型
显存占用减半：只需要维护一个策略模型
训练稳定：在语言模型的上下文老虎机设定下表现优异

四、Dr. GRPO：缺陷与修正

2025 年的研究指出原始 GRPO 存在两个数学上的缺陷，导致了一些反直觉的现象：

1. 两个数学缺陷

缺陷一：除以标准差破坏了梯度无偏性

基线化只能减去与动作无关的项，除以标准差不在 Sutton & Barto 的理论框架内
导致算法偏向优化太容易或太难的问题（这些问题的奖励标准差小，梯度被放大），减慢收敛速度

缺陷二：长度归一化导致错误的长度激励

正确回答：越短奖励越高 → 模型倾向于生成极短的正确回答
错误回答：越长惩罚越小 → 模型答错时会生成极长的回答来"混过去"
这就是很多推理模型生成超长思维链（CoT）的根本原因，而非"模型在努力思考"

2. Dr. GRPO修正方案

去掉标准差归一化，仅保留组内均值基线
去掉长度归一化项
结果：奖励相当的情况下，输出长度稳定在合理水平，不会无限增长

五、推理模型训练案例研究

5.1 DeepSeek R1：极简RL配方的胜利

R1 是首个全面匹配 OpenAI o1 性能的开源模型，其最大贡献是证明了基于结果的简单 RL 就足够实现顶级推理能力，不需要复杂的过程奖励模型（PRM）或蒙特卡洛树搜索（MCTS）。

R1 Zero（受控实验设置）

基础模型：DeepSeek V3
奖励设计：二元准确性奖励（对/错）+ 格式奖励（强制使用``标签）
结果：仅用纯 RL 就达到了接近 o1 的性能
观察到的现象：训练过程中 CoT 长度持续增加；模型学会了回溯和"啊哈时刻"
后续研究表明：这些现象更多是 GRPO 缺陷导致的，而非模型涌现的高级能力

完整R1流水线

长 CoT SFT 初始化：用少量高质量长思维链数据微调，解决 RL 冷启动问题
- 讲师洞见：基础模型已经具备强大的思考能力，SFT 只是在启动和提取这些能力，仅需 1000 个左右的高质量样本就能获得显著提升
GRPO 强化学习：在 R1 Zero 基础上增加语言一致性奖励，防止模型在 CoT 中混合多种语言
通用后训练：先做通用 SFT（结合推理和非推理数据），再用 GRPO 做 RLHF 对齐

两个重要的负面结果

R1 论文最有价值的部分其实是它的"失败实验"：

过程奖励模型（PRM）没用：虽然 PRM 能提供更细粒度的反馈，但训练成本极高，且最终性能不如简单的结果奖励
蒙特卡洛树搜索（MCTS）没用：受 AlphaGo 启发的搜索方法在语言推理领域未能证明其价值

5.2 Kimi K1.5：并行路线的验证与工程优化

Kimi K1.5 与 R1 几乎同时发布，取得了相当的性能，提供了 RLVR 的另一种实现思路。

核心创新

数据策展策略
- 领域平衡：用 LLM 自动标注问题领域，保证数据多样性
- 难度过滤：只保留 SFT 模型"8次尝试都不能答对"的问题，排除太简单的样本
- 排除选择题和判断题：防止模型通过随机猜测获得奖励
原创RL算法
- 从 DPO 的非参数假设出发，用平方损失替代 Bradley-Terry 目标
- 本质是带基线的策略梯度 + 显式正则化，与 GRPO 是趋同进化的结果
- 天然没有 GRPO 的长度偏差问题
主动长度控制
- 设计了专门的长度奖励：激励正确回答尽可能短，错误回答保持中等长度
- 仅在训练后期开启，避免早期陷入局部最优
- 结果：CoT 长度稳定在目标值，不会无限增长，大幅降低推理成本
RL基础设施优化
- 是首个详细讨论 RL 系统问题的论文
- 采用训练-推理分离的架构：用 vLLM 做 rollout，Megatron 做训练
- 解决了大模型权重在训练和推理进程间同步的难题

5.3 Qwen 3：低数据RL与推理可控性

Qwen 3 是最新的开源推理模型，在 R1 和 Kimi 的基础上进一步优化，最令人惊讶的发现是RLVR 的样本效率极高。

核心发现

仅用3995个高质量问题做 GRPO 训练，就获得了显著的推理性能提升
验证了 RLVR 是一种极其高效的后训练方法

最大创新：思维模式融合

实现了单个模型同时支持思考模式和非思考模式，并能在测试时灵活控制思考预算：

用特殊标签``和<no_think>区分两种模式
训练模型在收到<no_think>标签时直接输出答案
支持思考过程提前终止：当思考长度达到用户设定的阈值时，插入特殊指令让模型立即给出答案
实现了优雅的性能-成本权衡：思考时间越长，性能越高，用户可以根据需求自由选择

重要观察

通用 RLHF 会轻微损害模型的数学和 STEM 能力，但会显著提升通用任务和指令遵循能力
这是目前推理模型普遍存在的权衡，未来需要进一步解决

六、课程总结

RLHF 的核心瓶颈是人类反馈的噪声性和不可扩展性，导致严重的过度优化问题，而 RLVR 在数学、代码等可自动验证对错的领域可以发挥出全部威力
GRPO 凭借其简单性和高效性，已经成为 RLVR 的主流算法，但原始版本存在缺陷需要注意
三个开源模型（R1、Kimi 1.5、Qwen 3）验证了一个极其简单的推理模型训练配方：长 CoT SFT 初始化 + 基于结果的 RL + 通用后训练
未来的核心方向是提升推理的可控性和效率，让用户可以灵活平衡性能和成本