黄仁勋前段时间说了句话:一个年薪 50 万美元的工程师,如果不花至少 25 万在 AI Token 上,他会"感到震惊"。
这话不是炫耀 AI 有多省成本。恰恰相反——它意味着一半的用人成本,正在变成算力账单。他的深度学习 VP 说得更直接:在自己团队里,算力成本已经远超员工薪资。
Uber 的 CTO 公开承认,公司前四个月就烧光了全年的 AI 预算。运营主管随后补了一句更扎心的:Token 消耗量与用户功能输出之间"根本没有直接相关性"——钱花完了,说不清花在哪,也不知道花了有用没用。
微软也在刹车。近期将取消 Experiences & Devices 部门数千名工程师的某外部 AI 编码工具的许可证,转向内部更便宜的自研方案。不是外部工具不好用,是太好用了,好到账单吃不消。
这些信号指向同一件事:企业对 AI 调用的管理,远远跟不上 AI 使用的速度。我们把解决这件事的思路叫做 TokenOps——就像云时代有 FinOps 管成本,AI 时代需要一套方法管住 Token 消耗:谁在调、调了多少、花了多少、该不该设个上限。
模型便宜了,总账单为什么翻倍
大模型调用成本一直在降。有厂商的综合成本砍到了原来的三分之一,深度思考和多模态功能不再单独收费。按照直觉,企业 AI 支出应该跟着降。
但现实刚好相反。问题的根源不在模型的价格标签上,在"用"的方式。
以前团队用 SaaS,成本结构简单——多少个座位,每人多少钱,一目了然。现在全员接入 AI,调用路径变成了:工程师 A 用某 AI 编码工具调了模型,工程师 B 用另一个 Copilot 产品调了模型,工程师 C 在本地跑脚本直连 API。每个人、每个工具、每个模型,都是独立的消费入口。
没有人做汇总。没有人设上限。没有人知道这个月到底花了多少,直到财务把账单摔在桌上。
有个被反复引用的极端案例:一个重度用户在几分钟内让 AI 生成一个配置文件,烧掉了将近 4 美元。单个事件不致命,但 200 个工程师每人每天和 AI 交互上百次,没有任何预算拦截——一个月烧掉几十万还在纳闷这笔钱去哪了。
更麻烦的是,账单不是一张,是一堆。企业通常同时接多个 AI 服务商,每个有自己的后台、计费口径、导出格式。想算清楚"这个月总共花了多少",得手动打开四五个控制台拼 CSV。光是这一步,多数团队就已经放弃了。
TokenOps:AI 时代的成本管控需要自己的语言
上一轮出现类似的混乱,是云计算的早期。
团队从自建机房切到云上时,账本同样失控——开发者在控制台随手起一台实例忘了关,一个月后账单多了几千美元。后来行业慢慢长出了一套方法论,叫 FinOps,把云成本变成可计量、可归属、可优化的东西。
AI 调用现在面对的是同一类问题。差别在于,云资源至少还有实例 ID、VPC、标签体系可以追踪。Token 消费呢?一次 API 调用的颗粒度比一台虚拟机细一万倍,调用入口散落在 IDE 插件、终端命令行、CI 流水线、自建 Agent 里,传统成本管理工具连读都读不到这些数据。
TokenOps 不需要是个多复杂的框架,但至少得回答三个问题。
第一,计量。 今天花了多少 Token,分别是谁花的、花在哪个模型上、调了什么项目。不是月底拉账单——等到月底发现超预算,三十天已经过去了。必须是实时的、按人按项目按模型的。
第二,归属。 不是"研发部花了 5 万",是"张三在订单服务上调了某模型花了 2800,李四在数据中台调了另一个模型花了 4200"。这种颗粒度的归因,是做预算的前提。不知道钱是谁花的,就谈不上管。
第三,预算。 有没有人设过"这条线到这里为止"?给团队、给项目、给个人,设一个额度。不是不让你用,是用到这条线的时候,你自己知道,管理者也知道,不该是财务第一个发现。
这三个问题,缺一个,剩下的都没意义。
从"能调"到"可控",技术上的实现路径
几乎所有团队接入大模型的方式都是"把 Key 发给开发者,然后指望不出事"。指望他们不会把 Key 写进代码、不会不小心提交到 GitHub、不会在某个深夜写了 bug 导致死循环、不会随手开一个最贵的模型跑最简单的任务。
现实是,有调研报告显示,AI 领域的头部公司中,超过六成有过敏感密钥在 GitHub 上泄露的情况。这还只是被扫描到的。
工程上解决这个问题,核心思路是把"直接持有 Key"改成"通过一层中间层来调用"。
架构模式:API 网关 + 代理层
在团队和 AI 服务商之间架一层本地代理。所有 API 请求经过这层代理,统一完成凭证注入、额度检查、用量记录。开发者无需知道真正的 API Key,拿到的是虚拟凭证,可以设定日额度、月额度、速率限制、可用模型白名单。
这种模式的好处是零侵入——开发者不需要改任何一行业务代码。代理层在本地透明转发,业务代码调用的还是标准 API,只是背后多了一层治理。
多服务商统一计量
这层代理天然解决了多 Provider 账单碎片化的问题。所有服务商的调用数据汇总到同一个计量管道,不再需要手动拼 CSV。每笔调用自动打标:谁、哪个项目、哪个模型、耗时多少、Token 消耗多少、费用多少。
实时异常检测
正常的调用模式是什么样,超出阈值了自动触发告警。不是月底看报表那种"回顾式管理",是调用正在发生、异常正在形成的时候就能发出通知。凌晨三点 API 调用量突然翻了五倍——如果五分钟内收到告警,可能是 bug 导致的死循环;如果二十四小时后才在报表里发现,那笔钱已经烧完了。
云上实践:TokenOps 与云原生能力的结合
TokenOps 的实现和云计算基础设施高度相关。如果团队已经把业务跑在云上,TokenOps 的落地可以自然融入现有的云原生技术栈。
比如,Token 调用日志可以接入日志服务,利用已有的监控告警体系做异常检测;成本数据可以汇入云财务管理工具,和云资源消耗统一展示;API 代理层可以部署在轻量应用服务器或容器服务上,享受弹性和高可用。
这不是额外搭一套系统,而是在现有云基础设施上,把 AI 调用的计量和管控纳入管理半径。
结语
Token 消耗正在成为衡量工程师产出的代理指标。不是代码行数,不是提交次数,是你调了多少算力。这个逻辑一旦成立,企业的 AI 支出只会继续涨。
涨不可怕。可怕的是在涨的过程中,没人知道钱花到了哪里、该不该花、能不能花更少。
十年前云计算教会了我们 FinOps。现在,轮到 Token 了。