作为大模型从业者或研究人员,你是否曾为一个模型的“长文本能力”感到兴奋,却在真实场景中发现它的表现不如预期?
你可能遇到过以下问题之一:
测试高分≠实际好用
模型在“大海捞针”(Needle-in-a-Haystack)测试中表现优异,容易让人以为长文本问题已解决。然而,一旦任务需要串联多处信息、进行多跳推理(multi-hop reasoning)时,模型往往难以构建完整逻辑链,显示出深度理解上的不足。
训练过程难以稳定
长文本、多任务的数据来源多样,分布复杂,导致常规强化学习算法难以适应。精心设计的奖励函数可能因数据分布变化而产生偏差,反而使模型性能下降。训练过程中奖励值与熵剧烈波动,甚至导致训练失控。
上下文窗口始终有限
即使上下文长度扩展到256K、1M或更长,它仍然是有限的“物理内存”。现实任务——如分析整个代码库、解读长篇财报或专业著作——所需的信息量很容易超出该限制。模型不得不依赖分块处理等折中方法,从而导致全局信息丢失与端到端推理能力下降。
如果这些场景让你感到熟悉,那么问题可能并不在于你的努力不够,而是目前行业仍缺乏一套完整、端到端的长文本推理后训练方案。
针对这些挑战,通义实验室正式推出 QwenLong-L1.5——一个基于 Qwen3-30B-A3B 打造的长文本推理专家,以仅30B(激活参数3B)的规模,通过系统化后训练方案,实现了与GPT-5和Gemini-2.5-Pro相媲美的长文本推理能力。
这项工作的核心系统性地统一了:
- 可扩展的高质量数据合成管线
- 为长文本定制的强化学习方法
- 突破物理窗口的智能体架构
而这套组合拳,旨在一次性解决从“学不好”到“用不了”的全链路难题。
技术报告:https://www.modelscope.cn/papers/2512.12967
GitHub:https://github.com/Tongyi-Zhiwen/Qwen-Doc
模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
深入拆解 QwenLong-L1.5 三大“法宝”
要让模型真正掌握长文本推理,零敲碎打的优化是远远不够的。研究团队提出了一套系统性的“组合拳”,包含三大核心法宝,从根本上重塑模型的学习与思考方式。
法宝一:高质量“精神食粮”——多跳推理数据合成流水线
模型的“食粮”决定了它的“智商”。如果只给模型投喂简单的“大海捞针”式任务,就如同只让学生做单选题,却期望他能写出长篇论述文。
为了教会模型真正的“思考”,QwenLong-L1.5 打造了一条新颖的数据合成流水线。其核心思想是“先拆解,后组合”,专造需要“多跳溯源 (multi-hop grounding) 和全局推理”的难题。这就像用乐高积木拼城堡:先把一本巨著拆解成一个个知识“积木”(原子事实),再根据复杂的“图纸”(如知识图谱、多文档表格),把这些分布在不同章节的积木拼成一个宏伟的“建筑”(复杂问题)。
这条流水线由三大“出题引擎”驱动,能程序化地生成无穷无尽的高质量挑战:
知识图谱引导 (KG-Guided): 自动挖掘文档间的深层逻辑链,生成环环相扣的多跳推理题,强制模型进行跨段落、跨文档的关联思考。
跨文档表格引擎 (Cross-document Table Engine): 从多个非结构化文档中自动抽取出数据,整合成统一的结构化表格,据此生成需要聚合、统计与复杂计算的数值推理题。
多智能体自我进化 (MASE): 设计一个由“出题者”、“解题者”、“检验者”组成的多智能体框架,基于无标签文档自动合成通用长文本任务,通过“出题-解题-检验”的循环,结合历史合成任务提升任务难度和广度。
法宝二:稳定高效的RL优化策略
强化学习(RL)是提升模型推理能力的关键,但在长文本、多任务场景下,标准的RL方法会面临两大严峻挑战,极易导致训练崩溃。
第一个挑战源于数据分布的异构性。长文本训练的数据来自代码、学术文献、财报等多个领域,任务类型也涵盖了问答、计算、分析等。这种复杂性导致在训练的每个批次(mini-batch)内,数据分布都会发生剧烈偏移(distributional drift)。
这种偏移会严重干扰奖励信号(reward)的稳定性,并对优势函数(advantage function)的估计引入巨大噪声,使得梯度更新方向变得极不可靠。
为解决此问题,QwenLong-L1.5 采取了双重策略:
- 任务均衡采样(Task-balanced Sampling): 在构建每个训练批次时,强制从不同的任务类型(如多跳推理、数值计算、对话记忆等)中均匀抽取样本,从源头上保证了批次内数据分布的相对均衡。
- 任务专属优势估计(Task-specific Advantage Estimation): 在计算优势函数时,不再对整个批次的奖励进行标准化,而是在每个任务类型内部独立进行。这能有效隔离不同任务间迥异的奖励分布(如0/1的稀疏奖励与0-1的密集奖励),从而为每个任务提供更准确、更稳定的优势信号。
第二个挑战是长文本推理中的信用分配难题(Credit Assignment Problem)。在生成式任务中,一个最终错误的答案(negative response)往往包含了大量完全正确的中间推理步骤。传统的RL算法通过一个单一的负向奖励来惩罚整个序列,这种“一刀切”的做法会错误地惩罚那些正确的、具有探索价值的步骤,不仅压制了模型的探索能力,甚至可能导致“熵坍塌”(entropy collapse)和训练早停。
为此,QwenLong-L1.5 提出了 自适应熵控制策略优化(Adaptive Entropy-Controlled Policy Optimization, AEPO) 算法。AEPO的核心是一种基于模型自身不确定性(以策略熵衡量)的动态梯度屏蔽机制:
当模型在高不确定性(高熵)状态下生成了错误答案时,AEPO会主动屏蔽(mask)其负向梯度。这保护了模型的探索性行为,避免因惩罚不成熟的尝试而丧失学习潜力。 反之,当模型在 高置信度(低熵)状态下依然犯错时,负向梯度会被正常施加,以坚决纠正这些高置信度的错误。 通过这种动态的、智能的梯度控制,AEPO将模型策略的熵稳定在一个健康的区间,完美平衡了探索与利用,从根本上解决了长文本RL中的不稳定性问题。
法宝三:突破极限的“外置大脑”——记忆管理框架
256K的上下文窗口,本质上是一种有限的“短期记忆”。当面对浩如烟海的真实世界知识流时,我们需要的不是一个更大的窗口,而是一个全新的工作模式。为此,研究团队为模型设计了一套记忆管理框架 (Memory Management Framework),这相当于给了它一个可无限扩展的“智能笔记本”。在阅读超长文档时,模型不再试图将所有内容硬塞进“短期记忆”,而是学会了边读边记要点(迭代式记忆更新),形成结构化的记忆,并在需要时高效检索和利用这些“笔记”。
但这并非一个孤立的工具。通过巧妙的多阶段融合RL训练 (multi-stage fusion RL training),将这种“笔记能力”与模型与生俱来的“过目不忘”(窗口内推理)能力无缝地融合在了一起。最终得到的,是一个统一的模型——一个既能“深思”又能“博览”的全能选手,真正突破了物理窗口的束缚。
效果评测
30B MoE 模型实现媲美顶级旗舰效果
QwenLong-L1.5 在多个权威长文本推理基准上取得了不俗的成绩
从以上 benchmarks 表现中 可以总结为:
整体性能增强:相比基线模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分提升 9.9 分,这表明所采用的全套后训练方法具有出色效果;
比肩顶级旗舰:在多个权威长文本榜单上,QwenLong-L1.5-30B-A3B 模型取得了与 GPT-5、Gemini-2.5-Pro 等业界顶尖闭源模型相媲美的性能;
复杂任务上精准提升:性能提升精准地体现在了最能考验深度推理能力的复杂任务上,在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基准上,QwenLong-L1.5分别取得了 +31.72、+9.69 和 +6.16 的性能增长!
这也精准地验证了研究团队可编程数据合成的有效性——专门为模型打造了什么样的难题,它就在解决这些难题上获得了出色的能力!
通用能力不降反升
训练“专才”是否会牺牲“通才”能力?这是大模型微调中常见的“跷跷板”难题。QwenLong-L1.5 的答案是:不仅不会,反而会相互促进!
实验结果显示,经过长文本强化训练后,QwenLong-L1.5不仅没有出现“偏科”或“遗忘”,反而在一系列通用能力上也获得了显著提升:
- 在数学推理 (AIME25) 任务上表现更优;
- 在智能体记忆 (BFCL) 任务中展现出更强的状态追踪能力;
- 在长对话 (LongMemEval) 场景下,记忆和理解能力大幅增强。
这有力地证明了,提升长程信息整合能力,是一种基础性的“认知升级”,其收益会辐射到模型的各项核心能力之中。
征服 1M~4M Token 超长文本
当任务长度远超物理上下文窗口时,模型真正的扩展能力才得以体现。
借助“外置大脑”——记忆管理框架,QwenLong-L1.5 在处理1M、甚至4M级别的超长任务时,展现出了卓越的性能。
结果显示,QwenLong-L1.5 在这些极限挑战中,性能远超同类智能体方法,充分验证了框架强大的可扩展性。这表明,QwenLong-L1.5 不仅提升了模型在窗口内的能力,更赋予了它突破物理窗口限制、处理无限信息流的巨大潜力。
点击直达模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B