七三笔记

GRPO概述

 
GRPO（Group Relative Policy Optimization，群组相对策略优化）
是 DeepSeek 团队提出的一种新型强化学习算法，
专门用于提升大语言模型（LLM）在复杂推理任务中的表现。

 
它通过创新的“群组采样+相对评估”机制，
显著降低了传统强化学习算法（如 PPO）在大模型上的计算成本，并提高了训练稳定性。

 
GRPO 的关键创新在于用“组内相对比较”替代传统强化学习中对每个响应的绝对价值评估：

群组采样：
对于同一个 prompt，模型生成多个候选响应（如 4~16 个）；

相对评估：
将这些响应视为一个“组”，通过组内奖励的相对高低来估计每个响应的“优势”（advantage）；

无需价值网络：
省去 PPO 中必须维护的价值网络（Critic），大幅降低内存和计算开销。

 
以 DeepSeek-R1 的训练为例，GRPO 通常与 SFT（监督微调）交替进行：

生成响应组：
对同一 prompt 采样多个候选答案；

奖励打分：
基于答案正确性、格式规范、逻辑一致性等指标打分；

计算相对优势：
使用组内均值和标准差归一化奖励，得到每个响应的优势值；

策略更新：
以 PPO 风格的目标函数更新模型参数，同时引入 KL 惩罚项防止策略突变

 
高效：无需价值网络，显著降低大模型训练成本；

稳定：组内归一化缓解奖励缩放问题，训练过程更平滑；

灵活：支持任意奖励函数（如规则、编译器、人工打分），不依赖复杂奖励模型；

实用性强：已在 DeepSeek-Math、DeepSeek-R1 等模型中验证，数学推理能力接近 GPT-4

 

数学推理  
一题多解，GRPO 能自动比较多种解法优劣 

代码生成  
通过单元测试奖励模型判断代码正确性     

对话系统  
多轮对话中生成多个候选回复，择优强化    

医疗、法律  
结合规则或专家打分，提升专业任务准确性

 
GRPO 是一种“用相对比较代替绝对评分”的强化学习方法，它让大模型在复杂任务中更高效、更稳定地自我进化。

 
GRPO，即组相对策略优化（Group Relative Policy Optimization），
是DeepSeek团队提出的一种用于大型语言模型（LLMs）微调的强化学习算法。
它旨在通过在一组样本中进行价值估计来提高训练效率和模型性能。
GRPO被认为是DeepSeek-R1模型成功的关键技术之一，该模型在发布时表现出了与当时其他顶级模型相当的能力。

 
然而，近期的研究表明，使用GRPO训练大型语言模型时可能存在一些问题。
具体来说，Qwen团队指出，在每个token级别应用重要性采样可能会导致长序列中积累高方差，从而造成训练不稳定。
特别是在专家混合模型（Mixture-of-Experts, MoE）中，
这种不稳定性更加明显，因为token级别的路由变化会加剧这一问题。

 
为了解决这些问题，Qwen团队提出了一个新的算法——组序列策略优化（Group Sequence Policy Optimization, GSPO），
它试图通过将重要性采样从token级别转移到序列级别来解决上述问题，并声称这种方法可以提供更稳定的训练过程。

尽管如此，GRPO仍然是一个重要的里程碑，它展示了如何利用强化学习自动化评估过程，
减少对人工标注的依赖，并且以较低的成本实现高性能模型。这为后续研究提供了新的思路和方向。
不过，随着新方法如GSPO的提出，对于GRPO存在的局限性也有了更清晰的认识，这也推动了相关领域的持续进步和发展。

参考

    ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT

    DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

    DeepSeek 背后的数学原理：深入探究群体相对策略优化 (GRPO)

    一文搞懂大模型强化学习策略：DPO、PPO和GRPO

    deepseek GRPO算法保姆级讲解(数学原理+源码解析+案例实战)

    MedicalGPT：医疗GPT大模型全流程训练实践指引

七三笔记路线：学习，记录，分享