GPT-5.2 Codex来了:能独立跑7+小时的AI程序员,老金手把手教你玩转

简介: OpenAI发布GPT-5.2 Codex,支持异步自主编程,7小时持续任务不断线。采用上下文压缩技术,胜任复杂重构与安全审计。对比Claude Code的同步交互,Codex更像远程员工,适合甩手任务。Plus用户可免费体验,API性价比高,配合本地工具高效开发。

加我进AI讨论学习群,公众号右下角“联系方式”

文末有老金的 开源知识库地址·全免费


12月18号,OpenAI悄咪咪放了个大招。

GPT-5.2 Codex。

老金当天晚上就去折腾了一番,研究了两天才敢写这篇。

因为这玩意儿跟Claude Code完全是两个物种,不搞清楚核心区别容易误导大家。

Image


最核心的区别:异步 vs 同步

先说结论,这是GPT-5.2 Codex和Claude Code最本质的差别。

Claude Code是同步交互式:

  • 你发一条消息,它回一条消息
  • 你在本地终端盯着看
  • 每一步都要你确认才能继续
  • 适合边写边调的日常开发

GPT-5.2 Codex是异步自主式:

  • 你给一个任务,它后台自己干
  • 在云端沙箱里独立跑7+小时不断
  • 中间不需要你盯着
  • 适合扔个任务出去吃饭,回来收结果

看出来了吗?

Claude Code像个贴身助理,你说一句它做一句。

Codex像个远程员工,你发个任务单它自己去搞。

这不是优劣问题,是使用场景完全不同。


为啥能跑7+小时?Context Compaction

这是Codex的核心黑科技。

普通AI的问题你们都知道:聊着聊着就忘了前面说啥。改个大项目,改到一半它突然问你"请问你想改哪个文件"——我刚才不是说了吗!

Codex怎么解决的?

Context Compaction(上下文压缩)技术:

  • 当上下文窗口快满的时候,自动压缩历史内容
  • 保留跟当前任务相关的关键信息
  • 丢弃无关的细节
  • 压缩后继续干活,周而复始

这样就能支持几百万token的超长会话。

官方数据:单次任务能连续跑7+小时,中间不断片。

Hacker News上有老哥实测,让Codex从零搭一个完整的SaaS应用,3小时17分钟自己搞定了,中间没干预过。


性能数据说话

SWE-bench是专门测AI解决真实GitHub issue能力的,不是玩具题,是真实项目里的真实bug。

GPT-5.2 Codex的成绩:

  • SWE-bench Pro:56.4%(SOTA,行业第一)
  • SWE-bench Verified:约80%
  • Terminal-Bench 2.0:64%

对比一下:

  • Claude Opus 4.5:SWE-bench Verified 80.9%
  • Claude Sonnet 4.5:SWE-bench Verified 72.7%
  • Gemini 3 Flash:SWE-bench Verified 78%
  • 老版GPT-4o:SWE-bench才33%

注意这里有个细节:

SWE-bench Pro和SWE-bench Verified是两个不同的测试集。Pro更难,问题更复杂;Verified相对标准化。

GPT-5.2 Codex在Pro上拿了56.4%的SOTA,在Verified上约80%跟Claude Opus 4.5差不多。

总结:编程能力确实是第一梯队,但不是吊打所有人,Claude也很强。


安全审计:这个真牛逼

GPT-5.2 Codex有个隐藏技能让老金眼前一亮:发现安全漏洞。

官方案例:它在React源码里发现了一个安全漏洞,编号CVE-2025-55182,CVSS评分10.0(最高危)。

不是那种一眼能看出来的SQL注入,是需要深度分析代码逻辑才能发现的问题。

做安全的同学应该懂这意味着什么——以前代码审计得人工一行行看,现在让AI先过一遍,效率直接起飞。

OpenAI还搞了个"Trusted Access Pilot"计划,邀请验证过的安全研究人员用Codex做漏洞挖掘。


价格怎么说

当然老金还是推荐直接使用中转站,国内直连,并且现在大部分的中转站都直接一个Key支持了Claude、Codex和Gemini了。

ChatGPT Plus用户($20/月):

  • 直接用Codex,不额外收费
  • 打开codex.openai.com登录就能用

API调用:

  • 输入:$1.75/百万token
  • 输出:$14/百万token

对比Claude API价格:

  • Claude Sonnet输入$3/百万token,输出$15/百万token
  • Claude Opus输入$15/百万token,输出$75/百万token

GPT-5.2 Codex的API价格比Claude Sonnet还便宜点,比Opus便宜很多。

但实际花多少钱看你用法。长时间异步任务消耗的token量会比较大,但你省下了盯着屏幕的时间。

如果对你有帮助,记得关注一波~


和Claude Code怎么选?

老金两个都在用,说点真话。

选Claude Code的场景:

  • 日常开发,边写边调
  • 需要实时反馈的任务
  • 本地代码库操作
  • MCP生态里有你要用的工具

选GPT-5.2 Codex的场景:

  • 大型重构、迁移任务
  • 复杂bug排查
  • 安全审计、代码审查
  • 不想盯着屏幕等的任务

老金现在的用法:

日常改几行代码、写新功能,用Claude Code;

拿到一个"把这个老项目升级到新框架"的任务,扔给Codex,我去喝咖啡。

两个配合用,效率拉满。


怎么用上?

1、终端

安装指令:

npm -g i @openai/codex@latest

启动终端后,输入codex启动

Image

不需要每次允许的方法,输入 /

Image

选择全部允许:

Image

2.VS Code插件

在扩展(Ctrl+Shift+X)中,搜索codex

Image

如下点击选择操作:

Image

Plus用户:

    1. 打开 codex.openai.com
    1. 登录你的Plus账号
    1. 直接开干

用API:

    1. 到OpenAI官网申请API Key
    1. 模型名:gpt-5.2-codex(别写错)
    1. 支持400K输入 / 128K输出的上下文窗口

老金建议:有Plus的先在Codex里体验,感受一下异步执行是什么感觉,再决定要不要深度用API。


老金实测

拿了个真实项目试了试,任务是把一个3000行的Python文件拆成模块化结构。

Codex的做法:

    1. 先分析整体结构,列出拆分计划
    1. 一个模块一个模块地创建
    1. 自动处理import依赖
    1. 生成单元测试
    1. 跑测试确认没改坏

结果:耗时2小时47分钟,中间没断过,代码风格保持一致。

关键是这2小时47分钟我在干别的事,不是盯着屏幕等。

换以前用Claude Code,这活儿我得在旁边守着,虽然Claude可能更快,但我的时间也搭进去了。

这就是异步的价值。


最后说两句

GPT-5.2 Codex不是"更强的Claude Code",是完全不同的工具。

Claude Code是同步协作——你和AI一起干活。

Codex是异步委派——你甩手让AI自己干。

两个都是第一梯队的AI编程工具,选哪个看你的工作方式:

  • 喜欢掌控感、实时调整的,用Claude Code
  • 喜欢甩任务、多线程干活的,用Codex
  • 最聪明的,两个都用

AI编程工具这一年卷得太厉害了,但工具不重要,会不会用才重要。

Plus用户直接上Codex体验异步执行的感觉,值得一试。


参考来源

  • OpenAI官方博客:GPT-5.2 Codex发布
  • SWE-bench排行榜
  • Hacker News讨论帖
  • OpenAI API定价页

往期推荐:

提示词工工程(Prompt Engineering)

LLMOPS(大语言模运维平台)

WX机器人教程列表

AI绘画教程列表

AI编程教程列表


谢谢你读我的文章。

如果觉得不错,随手点个赞、在看、转发三连吧🙂

如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址:

https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

相关文章
|
6天前
|
数据采集 人工智能 安全
|
15天前
|
云安全 监控 安全
|
2天前
|
存储 SQL 大数据
删库跑路?别慌!Time Travel 带你穿回昨天的数据世界
删库跑路?别慌!Time Travel 带你穿回昨天的数据世界
245 156
|
9天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
650 5
|
12天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
792 152
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1902 9
|
3天前
|
机器学习/深度学习 人工智能 监控
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
别把模型当宠物养:从 CI/CD 到 MLOps 的工程化“成人礼”
223 163