导读
最近一周,AI开发工具的更新有点密集,而且方向非常一致:
Claude Code 推出了自动决策模式,开始自己决定代码怎么写、文件怎么改 Codex 以终端助手的形式回归,可以直接接管编码任务 谷歌开源了 TimesFM,把时间序列预测能力做成基础模型 一批推理模型开始开源,工程能力进一步下沉
这些变化叠在一起,其实在指向同一件事:
AI正在从“辅助工具”,变成“可以执行完整开发流程的角色”
从写代码,到运行,再到修复问题,很多环节已经可以自动完成
对开发来说,这是效率问题 但对测试来说,是角色问题
测试用例可以自动生成 自动化脚本可以自动写 Bug定位越来越依赖模型推理
如果这些事情都被接管了,那测试工程师还剩下什么?
这也是这段时间很多人开始反复在问的问题
目录
这轮AI,变的到底是什么
测试岗位正在被替代的部分
更重要的能力,正在上升
测试工程师的角色正在重构
接下来,测试该往哪里走
一、这轮AI,变的到底是什么
很多测试同学最近都有一个很明显的感受:
需求还没完全理解清楚 代码已经生成了一版 测试用例甚至都自动出来了
这不是个别工具的问题,而是整个工程模式在变
过去的流程是:

现在正在变成:

关键变化不在于某个工具,而在于:
开发、测试、修复,正在被一条自动化链路打通
以 Claude Code 和 Codex 为代表的工具,已经具备:
根据需求生成代码
自动补全核心逻辑
执行代码并根据报错调整
连续迭代直到跑通
这意味着一件事:
工程执行能力,正在被AI接管
二、测试岗位正在被替代的部分
很多人焦虑,其实不是没有原因的
因为测试里一部分工作,确实正在被替代
先看最典型的三块:
- 测试用例生成
以前 需要人工分析需求、设计边界、整理用例
现在 AI可以基于需求直接生成完整测试集
- 自动化脚本编写
以前 需要写代码、调试框架、处理兼容性
现在 AI可以直接生成可运行脚本,并自动修复报错
- Bug定位
以前 需要反复复现、查日志、定位原因
现在 AI可以分析调用链、日志、上下文,快速定位问题
总结一下:

结论很直接:
测试的执行层,正在被快速压缩
三、更重要的能力,正在上升
但问题在于
测试不会消失,只是核心能力在变化
真正上升的,是下面这三类能力
- AI结果的判断能力
AI会生成结果 但结果是否正确,需要人来判断
包括:
是否符合业务逻辑
是否存在隐性错误
是否存在幻觉
MIT已经有研究证明,大模型存在明显的顺从性问题
也就是用户说错,它也可能跟着错
这意味着:
AI不是绝对可信,它需要被测试
- 系统级理解能力
过去测试关注单个功能
现在需要理解:
整个系统如何协作
AI在系统中的位置
数据如何流动
测试的对象,从功能点变成了系统行为
- 数据与评估能力
AI系统不是确定性的
同一个输入 可能产生不同输出
这就带来一个新问题:
怎么评估对不对
测试需要开始关注:
数据集设计
评估指标设计
输出稳定性
四、测试工程师的角色正在重构
如果把这些变化合在一起看
测试工程师的角色,其实已经在变
从:
写用例
执行测试
提Bug
变成:
定义测试标准
评估AI结果
设计验证体系
可以抽象成一个结构:

一句话总结:
测试正在从执行者,变成质量决策者
五、接下来,测试该往哪里走
很多人最关心的其实是这个问题:
那我现在应该怎么办
这里给一个比较现实的方向
- 不要和AI比执行能力
AI在写代码、写用例这件事上 效率一定会超过人
继续在这一层卷,只会越来越难
- 开始理解AI系统
包括:
Agent是怎么工作的
RAG系统如何构建
模型能力边界在哪里
- 提升判断能力
未来真正稀缺的,不是写代码的人
而是能判断:
这套系统是否可靠的人
结尾
AI已经可以:
写代码 生成测试 执行流程
但它还做不好一件事:
对结果负责
这正是测试工程师新的价值所在