QwenLong-L1.5:让AI真正读懂长文本的秘密武器

简介: 通义实验室推出QwenLong-L1.5,基于Qwen3-30B-A3B打造的长文本推理专家,仅30B参数即实现媲美GPT-5和Gemini-2.5-Pro的能力。系统性解决“学不好、用不了”难题,三大核心技术:多跳推理数据合成、稳定强化学习算法、突破上下文限制的记忆框架,全面提升复杂任务与超长文本处理性能。

作为大模型从业者或研究人员,你是否曾为一个模型的“长文本能力”感到兴奋,却在真实场景中发现它的表现不如预期?


你可能遇到过以下问题之一:

测试高分≠实际好用

模型在“大海捞针”(Needle-in-a-Haystack)测试中表现优异,容易让人以为长文本问题已解决。然而,一旦任务需要串联多处信息、进行多跳推理(multi-hop reasoning)时,模型往往难以构建完整逻辑链,显示出深度理解上的不足。

训练过程难以稳定

长文本、多任务的数据来源多样,分布复杂,导致常规强化学习算法难以适应。精心设计的奖励函数可能因数据分布变化而产生偏差,反而使模型性能下降。训练过程中奖励值与熵剧烈波动,甚至导致训练失控。

上下文窗口始终有限

即使上下文长度扩展到256K、1M或更长,它仍然是有限的“物理内存”。现实任务——如分析整个代码库、解读长篇财报或专业著作——所需的信息量很容易超出该限制。模型不得不依赖分块处理等折中方法,从而导致全局信息丢失与端到端推理能力下降。

如果这些场景让你感到熟悉,那么问题可能并不在于你的努力不够,而是目前行业仍缺乏一套完整、端到端的长文本推理后训练方案。

针对这些挑战,通义实验室正式推出 QwenLong-L1.5——一个基于 Qwen3-30B-A3B 打造的长文本推理专家,以仅30B(激活参数3B)的规模,通过系统化后训练方案,实现了与GPT-5和Gemini-2.5-Pro相媲美的长文本推理能力

这项工作的核心系统性地统一了:

  • 可扩展的高质量数据合成管线
  • 为长文本定制的强化学习方法
  • 突破物理窗口的智能体架构

而这套组合拳,旨在一次性解决从“学不好”到“用不了”的全链路难题。

技术报告:https://www.modelscope.cn/papers/2512.12967

GitHub:https://github.com/Tongyi-Zhiwen/Qwen-Doc

模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B


深入拆解 QwenLong-L1.5 三大“法宝”

要让模型真正掌握长文本推理,零敲碎打的优化是远远不够的。研究团队提出了一套系统性的“组合拳”,包含三大核心法宝,从根本上重塑模型的学习与思考方式。

法宝一:高质量“精神食粮”——多跳推理数据合成流水线

模型的“食粮”决定了它的“智商”。如果只给模型投喂简单的“大海捞针”式任务,就如同只让学生做单选题,却期望他能写出长篇论述文。

为了教会模型真正的“思考”,QwenLong-L1.5 打造了一条新颖的数据合成流水线。其核心思想是“先拆解,后组合”,专造需要“多跳溯源 (multi-hop grounding) 和全局推理”的难题。这就像用乐高积木拼城堡:先把一本巨著拆解成一个个知识“积木”(原子事实),再根据复杂的“图纸”(如知识图谱、多文档表格),把这些分布在不同章节的积木拼成一个宏伟的“建筑”(复杂问题)。

这条流水线由三大“出题引擎”驱动,能程序化地生成无穷无尽的高质量挑战:

知识图谱引导 (KG-Guided): 自动挖掘文档间的深层逻辑链,生成环环相扣的多跳推理题,强制模型进行跨段落、跨文档的关联思考。

跨文档表格引擎 (Cross-document Table Engine): 从多个非结构化文档中自动抽取出数据,整合成统一的结构化表格,据此生成需要聚合、统计与复杂计算的数值推理题。

多智能体自我进化 (MASE): 设计一个由“出题者”、“解题者”、“检验者”组成的多智能体框架,基于无标签文档自动合成通用长文本任务,通过“出题-解题-检验”的循环,结合历史合成任务提升任务难度和广度。

法宝二:稳定高效的RL优化策略

强化学习(RL)是提升模型推理能力的关键,但在长文本、多任务场景下,标准的RL方法会面临两大严峻挑战,极易导致训练崩溃。

第一个挑战源于数据分布的异构性。长文本训练的数据来自代码、学术文献、财报等多个领域,任务类型也涵盖了问答、计算、分析等。这种复杂性导致在训练的每个批次(mini-batch)内,数据分布都会发生剧烈偏移(distributional drift)。

这种偏移会严重干扰奖励信号(reward)的稳定性,并对优势函数(advantage function)的估计引入巨大噪声,使得梯度更新方向变得极不可靠。


为解决此问题,QwenLong-L1.5 采取了双重策略:

  • 任务均衡采样(Task-balanced Sampling): 在构建每个训练批次时,强制从不同的任务类型(如多跳推理、数值计算、对话记忆等)中均匀抽取样本,从源头上保证了批次内数据分布的相对均衡。
  • 任务专属优势估计(Task-specific Advantage Estimation): 在计算优势函数时,不再对整个批次的奖励进行标准化,而是在每个任务类型内部独立进行。这能有效隔离不同任务间迥异的奖励分布(如0/1的稀疏奖励与0-1的密集奖励),从而为每个任务提供更准确、更稳定的优势信号。


第二个挑战是长文本推理中的信用分配难题(Credit Assignment Problem)。在生成式任务中,一个最终错误的答案(negative response)往往包含了大量完全正确的中间推理步骤。传统的RL算法通过一个单一的负向奖励来惩罚整个序列,这种“一刀切”的做法会错误地惩罚那些正确的、具有探索价值的步骤,不仅压制了模型的探索能力,甚至可能导致“熵坍塌”(entropy collapse)和训练早停。

为此,QwenLong-L1.5 提出了 自适应熵控制策略优化(Adaptive Entropy-Controlled Policy Optimization, AEPO) 算法。AEPO的核心是一种基于模型自身不确定性(以策略熵衡量)的动态梯度屏蔽机制:

当模型在高不确定性(高熵)状态下生成了错误答案时,AEPO会主动屏蔽(mask)其负向梯度。这保护了模型的探索性行为,避免因惩罚不成熟的尝试而丧失学习潜力。 反之,当模型在 高置信度(低熵)状态下依然犯错时,负向梯度会被正常施加,以坚决纠正这些高置信度的错误。 通过这种动态的、智能的梯度控制,AEPO将模型策略的熵稳定在一个健康的区间,完美平衡了探索与利用,从根本上解决了长文本RL中的不稳定性问题。


法宝三:突破极限的“外置大脑”——记忆管理框架

256K的上下文窗口,本质上是一种有限的“短期记忆”。当面对浩如烟海的真实世界知识流时,我们需要的不是一个更大的窗口,而是一个全新的工作模式。为此,研究团队为模型设计了一套记忆管理框架 (Memory Management Framework),这相当于给了它一个可无限扩展的“智能笔记本”。在阅读超长文档时,模型不再试图将所有内容硬塞进“短期记忆”,而是学会了边读边记要点(迭代式记忆更新),形成结构化的记忆,并在需要时高效检索和利用这些“笔记”。


但这并非一个孤立的工具。通过巧妙的多阶段融合RL训练 (multi-stage fusion RL training),将这种“笔记能力”与模型与生俱来的“过目不忘”(窗口内推理)能力无缝地融合在了一起。最终得到的,是一个统一的模型——一个既能“深思”又能“博览”的全能选手,真正突破了物理窗口的束缚。


效果评测

30B MoE 模型实现媲美顶级旗舰效果

QwenLong-L1.5 在多个权威长文本推理基准上取得了不俗的成绩

从以上 benchmarks 表现中 可以总结为:

整体性能增强:相比基线模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分提升 9.9 分,这表明所采用的全套后训练方法具有出色效果;

比肩顶级旗舰:在多个权威长文本榜单上,QwenLong-L1.5-30B-A3B 模型取得了与 GPT-5、Gemini-2.5-Pro 等业界顶尖闭源模型相媲美的性能;

复杂任务上精准提升:性能提升精准地体现在了最能考验深度推理能力的复杂任务上,在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基准上,QwenLong-L1.5分别取得了 +31.72、+9.69 和 +6.16 的性能增长!


这也精准地验证了研究团队可编程数据合成的有效性——专门为模型打造了什么样的难题,它就在解决这些难题上获得了出色的能力!


通用能力不降反升

训练“专才”是否会牺牲“通才”能力?这是大模型微调中常见的“跷跷板”难题。QwenLong-L1.5 的答案是:不仅不会,反而会相互促进!

实验结果显示,经过长文本强化训练后,QwenLong-L1.5不仅没有出现“偏科”或“遗忘”,反而在一系列通用能力上也获得了显著提升:

  • 在数学推理 (AIME25) 任务上表现更优;
  • 在智能体记忆 (BFCL) 任务中展现出更强的状态追踪能力;
  • 在长对话 (LongMemEval) 场景下,记忆和理解能力大幅增强。


这有力地证明了,提升长程信息整合能力,是一种基础性的“认知升级”,其收益会辐射到模型的各项核心能力之中。


征服 1M~4M Token 超长文本

当任务长度远超物理上下文窗口时,模型真正的扩展能力才得以体现。

借助“外置大脑”——记忆管理框架,QwenLong-L1.5 在处理1M、甚至4M级别的超长任务时,展现出了卓越的性能。

结果显示,QwenLong-L1.5 在这些极限挑战中,性能远超同类智能体方法,充分验证了框架强大的可扩展性。这表明,QwenLong-L1.5 不仅提升了模型在窗口内的能力,更赋予了它突破物理窗口限制、处理无限信息流的巨大潜力。


点击直达模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B


目录
相关文章
|
8天前
|
数据采集 人工智能 安全
|
4天前
|
机器学习/深度学习 人工智能 前端开发
构建AI智能体:七十、小树成林,聚沙成塔:随机森林与大模型的协同进化
随机森林是一种基于决策树的集成学习算法,通过构建多棵决策树并结合它们的预测结果来提高准确性和稳定性。其核心思想包括两个随机性:Bootstrap采样(每棵树使用不同的训练子集)和特征随机选择(每棵树分裂时只考虑部分特征)。这种方法能有效处理大规模高维数据,避免过拟合,并评估特征重要性。随机森林的超参数如树的数量、最大深度等可通过网格搜索优化。该算法兼具强大预测能力和工程化优势,是机器学习中的常用基础模型。
298 164
|
3天前
|
机器学习/深度学习 自然语言处理 机器人
阿里云百炼大模型赋能|打造企业级电话智能体与智能呼叫中心完整方案
畅信达基于阿里云百炼大模型推出MVB2000V5智能呼叫中心方案,融合LLM与MRCP+WebSocket技术,实现语音识别率超95%、低延迟交互。通过电话智能体与座席助手协同,自动化处理80%咨询,降本增效显著,适配金融、电商、医疗等多行业场景。
311 155
|
11天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
854 6
|
5天前
|
机器学习/深度学习 人工智能 前端开发
构建AI智能体:六十九、Bootstrap采样在大模型评估中的应用:从置信区间到模型稳定性
Bootstrap采样是一种通过有放回重抽样来评估模型性能的统计方法。它通过从原始数据集中随机抽取样本形成多个Bootstrap数据集,计算统计量(如均值、标准差)的分布,适用于小样本和非参数场景。该方法能估计标准误、构建置信区间,并量化模型不确定性,但对计算资源要求较高。Bootstrap特别适合评估大模型的泛化能力和稳定性,在集成学习、假设检验等领域也有广泛应用。与传统方法相比,Bootstrap不依赖分布假设,在非正态数据中表现更稳健。
250 113