SAPO:让强化学习告别“硬剪切”

简介: SAPO提出一种稳定高效的大语言模型强化学习方法,通过平滑门控替代硬剪切,解决GRPO/GSPO梯度丢失与不稳定问题。其连续信任域、序列级一致性及token级自适应设计,显著提升训练稳定性与样本效率,适用于dense/MoE模型,在数学、代码、逻辑等多任务上表现优越。

引言

强化学习(Reinforcement Learning, RL)已经成为提升大语言模型(Large Language Models, LLM)推理能力的核心技术之一。现代 RL 训练流程使模型能够解决困难的数学问题、编写复杂代码和进行多模态推理。实践中,一种被广泛采用的方法是基于组的策略优化(group‑based policy optimization):对每个提示采样多个回复,并在组内进行奖励归一化。 然而,尽管该方法效果显著,稳定且高性能的策略优化仍然困难。关键挑战在于 token 级重要性比率(importance ratio)的高方差,尤其是在 MoE 模型中。该比率衡量当前策略偏离生成训练样本的行为策略的程度。当该比值波动过大时(例如由专家路由变化或长序列生成导致),策略更新会变得噪声巨大、不稳定。

现有方法如 GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:

  • 学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。

  • 难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。
    因此,GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题,我们提出Soft Adaptive Policy Optimization(SAPO),一种稳定且性能更优的大语言模型强化学习方法。SAPO 使用平滑、温度控制的门控函数替代硬剪切,在保持稳定性的同时保留更多有效梯度。其特点包括:

  • 连续信任域(无硬剪切不连续性)

  • 序列级一致性(类似 GSPO,但不丢弃整段序列)

  • token 级自适应性(弱化异常 token)

  • 非对称温度设计(正负 tokens 差异化处理)

这些设计让 SAPO 能够达到稳定且有效的学习。

Soft Adaptive Policy Optimization

SAPO 优化以下代理目标:
image.png
image.png
image.png

为什么 SAPO 有效 从门控函数出发

image.png
image.png
image.png
image.png

2大规模 RL:Qwen3‑VL

SAPO 在不同规模的 dense 和 MoE 模型上均有提升。为了进行比较,我们在数学、编码、逻辑和多模态任务的混合上训练 Qwen3-VL-30B-A3B 的一个checkpoint。评估基准包括:

AIME25(数学推理)

LiveCodeBench v6 (代码生成)

ZebraLogic(逻辑推理)

MathVision(多模态数学推理)

结果:SAPO 在相同算力预算下优于 GSPO / GRPO‑R2。

image.png

SAPO 对于强化学习的意义

SAPO 提供了一个实用的方法来稳定和增强大语言模型强化学习训练:

更稳定连续的信任域

更合理的序列级 + token 级联合建模

提升样本效率

不对称温度设计提升训练稳定性

我们期待SAPO成为未来大语言模型强化学习中的基础技术之一。

完整技术细节见论文:https://arxiv.org/abs/2511.20347

相关文章
|
25天前
|
人工智能 文字识别 自然语言处理
通义千问大模型驱动的法律智能体创新实践
律杏法务云是基于阿里云通义千问大模型构建的新一代法律人工智能平台,通过深度融合OCR、NLP、知识图谱技术与千亿参数级语言模型,在企业法务管理领域实现了从信息抽取、文书生成到风险预警的全流程智能化。本文将深入剖析其技术架构与五大核心模块,揭示大模型如何重塑现代法务工作范式。
379 1
|
10月前
|
人工智能 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 7.4 应用实践之 AI大模型外脑
PolarDB向量数据库插件通过实现通义大模型AI的外脑,解决了通用大模型无法触达私有知识库和产生幻觉的问题。该插件允许用户将新发现的知识和未训练的私有知识分段并转换为向量,存储在向量数据库中,并创建索引以加速相似搜索。当用户提问时,系统将问题向量化并与数据库中的向量进行匹配,找到最相似的内容发送给大模型,从而提高回答的准确性和相关性。此外,PolarDB支持多种编程语言接口,如Python,使数据库具备内置AI能力,极大提升了数据处理和分析的效率。
429 4
|
12月前
|
编解码 IDE KVM
Happy coding,明基RD280U使用分享
最近尝试了明基的专业编程显示器 `RD280U`,28寸4K分辨率,3:2屏幕比例,适合编程。支持硬件级防蓝光、抗反射面板,接口丰富,支持KVM。自动亮度调节、编码模式和软件辅助功能,使其在编程体验上表现出色。如果你对专业编程显示器有需求,这无疑是一个不错的选择。
489 12
|
12月前
|
人工智能 关系型数据库 OLAP
通义百炼融合AnalyticDB,10分钟创建网站AI助手
本文介绍了如何在百炼平台上创建和配置AI助手,使其能够准确回答公司产品的相关问题。主要步骤包括:开通管理控制台、创建应用并部署示例网站、配置知识库、上传产品介绍数据、创建AnalyticDB PostgreSQL实例、导入知识文件、启用知识检索增强功能,并最终测试AI助手的回答效果。通过这些步骤,AI助手可以从提供通用信息转变为精准回答特定产品问题。实操完成后,还可以释放实例以节省费用。
423 2
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
监控 Java 调度
定时任务概述
定时任务概述
214 1
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
355 0
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
机器学习/深度学习 人工智能 算法
dlib
【6月更文挑战第19天】
429 3
|
前端开发 C# 索引
浅谈WPF之UI布局
一个成功的软件,离不开人性化的UI设计,如何抓住用户第一视觉,让用户产生依赖感,合适优雅的布局必不可少。本文以一些简单的小例子,简述WPF中布局 面板 控件的使用,仅供学习分享使用,如有不足之处,还请指正。
375 1
|
数据安全/隐私保护 Python
python代码加密以及注意事项分享
假设你已经有了一个 Python 程序 `main.py`。确保它在你的环境中可以正常运行。