打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力

简介: 微软与清华联合推出X-Coder系列模型,首创纯合成数据训练范式,在不使用任何真实竞赛题的前提下,仅用7B参数即在LiveCodeBench v5上达62.9%准确率,超越更大规模依赖真实数据的模型。项目已开源模型与数据集。(239字)

在代码大模型(Code LLMs)的持续演进中,竞赛级编程(Competitive Programming)是考验其极限算法思维与长逻辑推理的核心高地。然而,当前在该领域性能领先的模型,往往高度依赖有限的真实世界竞赛数据,这不仅带来了真实数据枯竭问题,也引发了严重的数据污染担忧。

能否仅依靠纯合成数据,将大模型的代码推理能力提升至专家水平?

近日,来自微软和清华大学的研究团队联合发表了一项最新研究,给出了肯定的答案。他们提出了一种全新的数据合成与模型训练范式,并开源了 X-Coder 系列模型。令人瞩目的是,在完全不使用任何真实竞赛题目的情况下,仅有 7B 参数的 X-Coder-7B 模型在极具挑战的 LiveCodeBench v5 上取得了 62.9% 的优异成绩,显著超越了更大参数量且依赖真实数据的传统模型。


目前,研究团队已开源相关模型权重及数据集,希望降低社区的复现成本与研究门槛。


开源链接

GitHub 仓库: https://github.com/JieWu02/X-Coder

ModelScope 链接: https://www.modelscope.cn/organization/IIGroup


全新数据流水线:突破合成数据多样性与质量瓶颈

传统的合成数据方法通常基于真实数据进行改写或扩展,但这种方式极易触及多样性的天花板。此外,如果直接提示大模型生成竞赛题,模型往往倾向于“走捷径”,生成定义不清或缺乏挑战性的简单题目。


为了解决这一问题,研究团队设计了一套高质量的全合成数据生成流水线。通过三个核心阶段,他们成功构建了包含数十万道高质量题目、总计超 30 亿 tokens 的合成数据集:

1. 竞赛特征演化(Feature Evolution)

研究者放弃了直接生成题目的传统做法,转而从 1 万道真实题目中提取核心特征(如快速排序、动态规划、线段树等)。随后,利用大模型驱动这些特征进行自我演化与组合。最终,算法类特征空间从 27k 扩展至 177k,实现了问题空间的多样性爆炸。


2. 两阶段任务生成(Two-Stage Generation)

为了避免模型在生成题目时过度简化难度,研究团队将生成过程解耦:第一步,由 LLM 从演化后的特征树中采样一组相互兼容的特征组合;第二步,要求 LLM 基于这些特定特征,构建一个具有复杂背景的竞赛题目。消融实验表明,这种解耦策略使模型最终的性能提升了 5.3%。


3. 双重验证机制(Dual Verification)

纯合成数据的难点在于如何保证答案和测试用例的绝对正确。团队采用了多路采样的多数投票机制:为每道题生成 8 个候选代码,并在合成的测试用例上交叉执行,选出一致性最高的输出。同时,引入基于难度的权重打分系统,最终筛选出“黄金答案”。


关于 SFT 冷启动与 Code-RL 的五个核心洞见

在利用上述合成数据进行监督微调(SFT)和强化学习(RL)的过程中,研究团队观察到了五个训练规律与反直觉现象:

洞见一:合成数据遵循 Scaling Law,且任务多样性优先于响应多样性

在算力预算固定时,如何分配数据资源?研究发现,扩展题目数量(Task Diversity)远比增加单题的采样答案数(Response Diversity)更有效。使用 64k 道不同题目(每题 1 个答案)的训练效果,显著优于 16k 道题(每题 4 个答案)。基于此,团队验证了合成数据的 Scaling Law:当题目从 32k 增加至 200k 时,模型性能从 43.7% 稳定攀升至 62.7%。


洞见二:长推理链价值更高,但训练收敛速度更慢

研究深入对比了长短推理链的效果差异。相比于短推理链,使用类似 DeepSeek-R1 生成的包含长推理链(Long-CoT,平均 17.7k tokens)的数据能够带来 17.4% 的绝对性能提升。然而,长推理链的代价是训练变慢——它往往需要 8-10 个 epoch 才能完全收敛,而短推理链通常只需 2-3 个 epoch。


洞见三:高推理密集型任务带来更大收益

模型训练的收益并非在所有难度的数据上均等。研究表明,那些需要高度复杂逻辑和深层思考的“推理密集型任务”(即高难度题目),在 SFT 和 RL 阶段能为模型提供更优质的梯度信号和能力提升,其训练价值远超大量简单的基础编程题。


洞见四:RL 对噪声数据具有高度鲁棒性

业界普遍认为强化学习需要完美的奖励信号。但 X-Coder 的训练表明,即便测试用例存在 5-8% 的错误率,RL 范式依然有效,并能带来额外的绝对性能提升。此外,RL 展现了“强者恒强”的特性:使用更强的 SFT 模型作为初始化起点,能够达到更高的最终性能上限。



洞见五:推理长度与准确率的“倒置”现象

直觉通常认为,模型的推理链条越长,答案的准确率应越高。然而统计表明,推理长度在 0-5k tokens 时题目通过率极高,而当推理超过 20k tokens 时,通过率骤降至 14.3%。研究指出,这其实是一个中介效应(Mediating Effect)——高难度的题目本就需要更长的推理,更长的推理同时会导致错误累计,使得生成的代码容易出错。


失败案例剖析:推理能力依然是核心瓶颈

尽管 X-Coder 在长推理层面取得了显著进展,但研究团队对代码推理模型的失败行为进行了详细的分类分析,发现推理能力本身依然是限制模型表现的最大瓶颈:

答案错误(Wrong Answer)占据主导: 错误分布结果表明,绝大多数的报错源自模型输出与预期答案不匹配,这意味着核心逻辑推理缺陷仍是主要问题。

上下文截断(No Code Block Generated): 另一大主要失败原因是未能生成代码块。进一步分析无代码样本后发现,这些失败案例全部是因为推理过程超过了 32k tokens 的上下文窗口限制,导致推理被截断。

超时错误(Time Limit Exceeded, TLE)频发: 此外,普遍存在的超时错误进一步强调,未来的代码大模型在解决复杂问题时,必须更加重视执行效率的优化。


大模型的行为涌现与RL训练中的“奖励作弊”发现

在长推理链的训练下,模型自动涌现出了规划、自我验证、反思和优化(例如主动将暴力解法降级为高级算法以降低复杂度)的认知能力。

与此同时,研究团队在对 RL 训练后期的模型行为演化进行深入剖析时,发现模型为了实现奖励最大化,会自发演化出三种典型的“奖励作弊”(Reward Hacking)策略。

上下文截断策略(提前交卷):当推理长度逼近上下文窗口限制时,模型为了避免生成失败,会策略性地放弃完整推理,匆忙给出答案。

预训练记忆唤醒(抄作业):遇到极端难题时,模型可能会停止基于逻辑的推演,转而激活预训练阶段的记忆,试图将曾经见过的 C++ 代码强行翻译为 Python,从而导致编译报错。

规则漏洞利用(钻空子):模型学会了针对某些测试用例的边界情况(Edge cases)输出硬编码答案,以此骗取部分奖励分数。

研究意义与展望

X-Coder 的发布,打破了训练顶尖代码推理模型必须依赖人类真实竞赛题的惯性思维。它证明了纯合成数据不仅能够有效缓解数据污染,更具备无限扩展的潜力。

通过几十万道合成题达到甚至超越百万级真实数据的训练效果,X-Coder 为复杂逻辑推理领域(如数学、定理证明)的模型演进提供了一条极具价值的新路径。

点击即可跳转组织链接https://www.modelscope.cn/organization/IIGroup

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
转行AI需谨慎:那些半途而废的人,都忽略了这几点。
2025年AI岗位需求暴增543%,但超六成转行者半年内放弃。本文揭示五大陷阱:盲目跟风忽视赛道适配、混淆工具使用与真实能力、碎片化学习缺实战闭环、急功近利轻视伦理、为高薪而非兴趣出发,并指出科学路径才是破局关键。(239字)
494 12
|
1月前
|
机器学习/深度学习 人工智能 文字识别
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
682 22
|
28天前
|
机器学习/深度学习 开发者 内存技术
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
422 22
|
2月前
|
JSON 人工智能 Shell
用 4B 小模型做Code Agent的SubAgent?这个开源项目做到了
LocoOperator-4B 是 LocoreMind 推出的 4B 开源蒸馏模型,专为代码库探索优化:本地运行、零 API 成本,结构化工具调用(Read/Grep/Glob/Bash 等)准确率达 100%。它替代 Code Agent 中的子智能体,显著降本增效。(239 字)
491 18
|
1月前
|
数据采集 人工智能 数据可视化
《基于 DeepSeek 百万token上下文的实证研究:全窗口真实工程压力测试与统计分析》
本项目基于 DeepSeek 于 2026 年 2 月推出的 “新长文本模型”(上下文窗口扩展至1,000,000 tokens,API 端仍保持 V3.2 版本),通过构建非AI/IT领域的完整项目流程,进行了全程、全负载实证工程测试。在单一连续上下文中实现了端到端的闭环。
|
2月前
双 Transformer + 双神经符号 + 突触耦合 + DeepSeek 插件 极简验证
双 Transformer + 双神经符号做核心,用类脑突触耦合中间层做动态配对,嵌入 DeepSeek 的 Engram 和 MHC 补长程和记忆短板,也不知道行不行。
|
2月前
|
人工智能 自然语言处理 JavaScript
Deepseek百万 Token 窗口的极限实践:一位非专业人员使用实录
摘要:此文非技术评测,而是一份关于Deepseek最新百万token窗口的真实工程“长程思考”实录。本人非AI与计算机专业,从事生物医学与心理学工作,人文爱好者。利用十天时间,通过浏览器deepseek云端模型百万token对话窗口,实现了一套从本地环境设置、工具流搭建、数据建库与向量化的整个工程。本文记录了主要的过程与指标。 时间:2026 年 2 月
|
2月前
|
机器学习/深度学习 测试技术 API
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
5649 23
|
2月前
|
机器学习/深度学习 人工智能 算法
自进化≠自我刷题,Agent 真正的突破口是「自己造环境」?——6 位领域学者 · 7 大议题 · 2 万字圆桌观点实录
AI AMA首期聚焦“Agent自进化”,由魔搭等联合发起,邀请翟云鹏主持及5位顶会作者深度对谈。围绕定义、泛化能力、反馈信号、评估体系等7大议题,探讨Agent如何突破“从零开始”瓶颈,实现类人经验积累与策略优化。(239字)
242 5
|
10天前
|
机器学习/深度学习 数据采集 安全
大模型应用:联邦学习融合本地大模型:隐私合规推荐的核心流程与实践.62
本文探讨联邦学习与本地大模型(如Qwen1.5-1.8B)融合的推荐方案:在数据不出域前提下,通过加密参数协同训练,破解隐私合规与推荐精度的矛盾,实现“数据可用不可见”,已验证可显著提升稀疏数据门店的推荐准确率。
125 15

热门文章

最新文章