大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解

简介: 近期LLM强化学习进展迅速,CE-GPPO、EPO与AsyPPO三篇论文从梯度恢复、时序平滑与非对称critic集成等角度,分别解决熵控难题,共同推动大规模推理模型训练方法革新。

LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。

三篇新论文给出了不同角度的解法:CE-GPPO、EPO和AsyPPO。虽然切入点各有不同,但合在一起就能发现它们正在重塑大规模推理模型的训练方法论。下面详细说说这三个工作到底做了什么。

标准PPO在熵控制上的失效

先说policy entropy这个概念。熵衡量模型输出的随机性或者说多样性程度——高熵对应探索不同解法,低熵则是锁定单一策略。经典PPO算法的做法很简单:importance sampling ratio超出(1−ε, 1+ε)范围就直接clip掉。

这样的话问题出在哪?PPO的clipping会把低概率token的梯度信息扔掉,而这些token在推理任务里恰恰很关键。比如让模型做AIME 2025的题目,或者让它完成一个30轮的科学实验,那些探索性的、概率不高的路径往往藏着突破口。标准PPO的策略感觉这个路径"太冒险了,clip掉算了",结果就是:

熵坍缩:模型太快变成确定性的,卡在平庸策略上出不来;熵爆炸:模型乱探索,根本收敛不了

具体例子就是在ScienceWorld这种多步骤、稀疏reward的环境里跑一下原版PPO就知道了,entropy会剧烈震荡,模型啥也学不到。

CE-GPPO:有界梯度恢复机制

快手提出的CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)核心思路是用有界的方式把被clip掉的梯度拿回来

Token的四类划分

CE-GPPO按概率和advantage把token分成四类:

  • PAHP (Positive Advantage, High Probability):模型喜欢的、该强化的token
  • NALP (Negative Advantage, Low Probability):差的探索token,要抑制
  • PALP (Positive Advantage, Low Probability):好的探索token,这是论文说的金子
  • NAHP (Negative Advantage, High Probability):高概率但该减少的token

标准PPO直接clip掉PALP和NALP,这样梯度信号全丢了,而CE-GPPO用系数α₁和α₂把它们重新引入:

stop-gradient操作允许独立调节α₁(exploitation强度)和α₂(exploration强度)。设α₁=0、α₂=1就退化成DAPO的clip-higher trick,但CE-GPPO的框架灵活得多。

实验结果:在DeepSeek-R1-Distill-Qwen-7B上测试,CE-GPPO在AIME24达到66.0(DAPO是59.7),AIME25拿到51.4(DAPO是48.7)。最优配置是α₁=0.75、α₂=1,这个设置鼓励PALP token的探索,同时温和约束NALP token避免过度探索。

为什么work

理论依据:CE-GPPO的梯度幅度被bounded在α₁(1−ε)或α₂(1+ε)范围内,trust region不会被破坏。但关键是从那些有信息价值的token里恢复了signal。

训练曲线的数据很说明问题,CE-GPPO的entropy保持得相当稳,不像GRPO那样先暴跌再爆炸。

EPO:针对多轮交互的时序平滑

EPO(Entropy-regularized Policy Optimization)是Rutgers和Adobe的工作,针对的场景完全不同,它主要研究的是那种需要30多步action才能拿到success/fail信号的多轮交互环境。

级联失效的两个阶段

EPO发现了所谓的exploration-exploitation cascade failure,分两个phase:

Phase 1(步骤0-40):稀疏reward导致早期过度探索。agent乱试一通,养成一堆坏习惯

Phase 2(步骤40+):早期的混乱会propagate到后续步骤。entropy一直很高,agent持续震荡,根本形成不了连贯策略

根本原因是传统entropy regularization对时序不敏感,每个timestep都是单独处理的。但在多轮任务里,早期选择会cascade影响整条trajectory的结果。

EPO的方案:历史熵锚定

EPO的核心创新是entropy smoothing regularizer。不是简单加个loss项,而是维护一个历史窗口,记录过去训练步骤的平均entropy。smoothing loss会惩罚偏离:

这样就给entropy加了"护栏",通常设κl=0.8、κr=1.2,不会让它跑偏太远。完整loss是:

动态系数β_k按指数schedule变化,早期训练时较小(温和平滑),后期逐渐增大(强力稳定)。这直接对抗两阶段级联失败。

实验结果:ScienceWorld上,PPO+EPO比vanilla PPO提升152.1%(96.8 vs 38.4平均成功率)。ALFWorld上GRPO+EPO有19.8%提升,稳定性很好。

一个反理论的发现

流行的entropy decay schedule在多轮环境里不管用。大家都被教育要"早期探索、后期利用",但EPO的实验数据表明,对于稀疏reward的agent来说这策略有问题。episode内部过早exploit会锁定糟糕的初始action,错误会波及整个run。正确做法是在trajectory所有步骤保持稳定的exploration pressure,再配合一点smoothing。

AsyPPO:小规模critic集成方案

HKUST、Mila和Alibaba合作的AsyPPO(Asymmetric Proximal Policy Optimization)解决的是另一个问题:让critic在LLM规模的RL训练里重新变得可用。

小模型能指导大模型吗

经典PPO用对称actor-critic架构:actor 14B参数,critic也是14B。GRPO这类新方法干脆扔掉critic,改用group-average baseline。虽然work但丢失了proper value estimation带来的稳定性和bias reduction。

AsyPPO提出了一个问题:1.7B或4B的小critic能不能guide 14B的大actor?然后给出了答案:可以,但前提是方法得对。

集成策略

单个小critic不行,value estimate太noisy。AsyPPO用两个小critic,在disjoint的prompt-level数据分片上训练。每个问题的rollout responses一半给Critic 1,一半给Critic 2。这保证:

多样性:从不同response distribution学习

同步性:看到相同prompts,保持calibration

corrected advantage用两个critic的value estimate平均值:

这里δ_t^mean来自V₁和V₂的均值,比单个critic的bias要小。

基于不确定性的门控

AsyPPO把inter-critic disagreement当signal用。每个state算critic之间value的标准差,然后:

Advantage Masking:σ_t很低的state(critic强烈一致),mask掉advantage。这些是boring的、over-visited的state,没有学习信号,不值得花梯度更新

Entropy Filtering:σ_t很高的state(critic强烈disagree),从entropy regularization里filter掉。这些是ambiguous或noisy的state(比如filler token "umm"、"well"),exploration没意义

loss变成:

I_A mask低σ state,I_H从entropy里filter高σ state。

实验结果:AsyPPO在math benchmarks(AIME24/25、MATH-500等)上比GRPO提升约3%,内存占用比对称PPO少20%。最优配置是两个4B critic guide一个14B actor。更多critic有帮助但两个就够拿到主要收益了。

非对称架构为什么现在可行

上面几个方法的关键点是pretrained LLM有丰富的representational prior。哪怕1.7B的预训练模型,也有足够world knowledge去evaluate 14B actor的behavior。这在经典RL(Atari、MuJoCo)里不成立,因为那些agent都是从零开始学,所以可以非对称actor-critic setup是LLM时代独有的可行方案。

三者的统一视角

这三篇论文其实构成了一个coherent narrative:

CE-GPPO:恢复被clip token的梯度,在单个训练步内控制entropy,平衡PALP(exploration)和NALP(exploitation)

EPO:用历史平滑在训练步之间控制entropy,防止多轮场景的cascade failure

AsyPPO:用小型ensemble高效恢复critic,再利用critic uncertainty做learning signal的门控(mask boring state、从entropy里filter noisy state)

后续方向

下一步应该可以把这些方法组合起来。比如:

在AsyPPO的uncertainty-filtered updates里用CE-GPPO的α₁、α₂调节

把EPO的历史平滑应用到CE-GPPO的gradient-preserved entropy上

把AsyPPO的critic ensembles扩展到多轮agent场景,配合EPO的trajectory-aware loss

三种方法都在解决同一个核心问题:更聪明地判断何时、如何让模型exploration vs exploitation。只是角度不同——gradient(CE-GPPO)、时序(EPO)、critic uncertainty(AsyPPO)。这些细节上的差异,决定了模型是停在平庸水平,还是能真正crack掉AIME难题或者reliable地控制机器人。

https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4

作者:Aditya Dubey

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
大模型开发:解释强化学习以及它与监督学习的不同之处。
强化学习(RL)是机器学习的一种,通过智能体与环境交互学习最优策略,以获取最大回报,常用于动态环境如游戏和机器人。与之不同,监督学习(SL)使用有标签的训练数据来预测新数据,适用于如图像分类等稳定问题。两者关键区别在于学习方式和应用场景:RL侧重环境交互和策略优化,适合未知动态环境;SL依赖已知标签数据,适合标签明确的任务。在大模型开发中,两者各有优势,并不断融合创新,推动人工智能发展。
1091 2
|
4月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1225 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
11月前
|
机器学习/深度学习 人工智能 算法
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。
798 8
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
1141 6
|
机器学习/深度学习
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
906 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
机器学习/深度学习 存储 自然语言处理
大模型面经答案—强化学习:理论解释与讲解
微信上偷来的文章(哈哈(ಡωಡ)hiahiahiahiahiahia),我可是选的转载的,收藏起来自己偷偷复习大模型,希望能赶上下一波风口。
|
3月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
737 109
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
316 2
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1581 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)

热门文章

最新文章