GLM-5.1开源：独立工作8小时，探索长程任务上限-阿里云开发者社区

GLM-5.1开源：独立工作8小时，探索长程任务上限

2026-04-09 61

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 智谱发布开源旗舰GLM-5.1，首次实现超8小时长程自主编程，支持从零构建Linux桌面、655轮向量库优化等工程级任务，在SWE-Bench Pro等基准中位列全球第三、开源模型第一。

今天凌晨，智谱最新开源旗舰 GLM-5.1 发布，这次直接把 AI 编程推到了"8小时长程任务"时代。从早期3分钟的 Vibe Coding，到30分钟的 Agentic Engineering，再到如今能连续独立工作超过8小时的 Long-Horizon Task，GLM-5.1 堪称智谱迄今最强的旗舰模型，也是当前全球最能打的开源模型之一。

GLM-5.1在代码能力上大幅跃升，尤其擅长长程任务——一次下发，模型即可自主规划、执行、自我迭代，全程无需人工接管，最终交付完整的工程级成果，把智能体从"助手"升级成了"工程师"。

开源链接

GitHub：https://github.com/zai-org/GLM-5

ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1

官方API接入

BigModel开放平台：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai：https://docs.z.ai/guides/llm/glm-5.1

Blog

https://z.ai/blog/glm-5.1

代码能力是模型智能水平进一步提升的关键。下图是GLM-5.1分别在 SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo基准中的表现，综合结果上，取得了全球模型第三、国产模型第一、开源模型第一的成绩。

在最接近真实软件开发的SWE-bench Pro基准测试中，GLM-5.1刷新全球最佳成绩，超过GPT-5.4、Claude Opus 4.6。

案例展示：模型上班的8小时

抛开Benchmark，本次 GLM-5.1 的官方展示重点，转向了：模型在长程任务中能否持续工作、持续优化，并完成完整的“执行、分析、修正”闭环。

在同等评估口径下，GLM-5.1 展现出较强的长时间自主工作能力。以下是官方提供的三个案例：

Case 1：8小时从零构建 Linux 桌面

在该任务中，模型被要求从零开始完成一个 Linux 桌面系统构建。

任务结果：

持续执行 8 小时
完成 1200+ 步操作
约 20 分钟后产生首个有效结果
最终产出包含桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等完整组件
生成配套文件约 4.8MB

Case 2：655 次迭代优化向量数据库

在向量数据库优化任务中，GLM-5.1 通过持续迭代完成性能提升。

任务结果：

655 轮迭代
持续进行 Benchmark 运行、瓶颈定位与方案调整
优化路径覆盖全库扫描、IVF 分桶召回、半精度压缩、量化粗排、两级路由、提前剪枝等
查询吞吐从 3108 QPS 提升至 21472 QPS
相比初始正式版本提升 6.9 倍

Case 3：1000 轮工具调用优化真实机器学习负载

在 KernelBench Level 3 基准上，GLM-5.1 针对 50 个真实机器学习计算负载进行持续优化。

任务结果：

超过 24 小时不间断迭代
完成多轮编译、测试、分析、重写循环
支持 Triton Kernel、CUDA Kernel、cuBLASLt epilogue 融合、shared memory tiling、CUDA Graph 等优化方式
几何平均加速比达到 3.6 倍
对比 torch.compile max-autotune 模式的 1.49 倍，提升更明显