一线工程师 2025 总结:LLM 只用了不到 10%,剩下 90% 卡在哪?

简介: 2025年,LLM能力爆发,但多数企业仅用到其10%。真正瓶颈不在模型强弱,而在工程落地:延迟不可控、并发崩溃、换模成本高、成本失控成常态。当LLM从“工具”变为“基础设施”,中转层与系统稳定性成为关键。释放剩余90%潜力,需扎实的架构设计与工程治理。

2025 年,是很多工程师真正对 LLM “祛魅”的一年。

模型更强了,参数更多了,Benchmark 一次次被刷新。但与此同时,另一种声音在一线越来越清晰:

不是模型不行,是我们根本没把模型用起来。

在过去一年里,我参与或旁观了十多个 AI 项目从立项、试跑到上线,有的跑通了,有的悄无声息地停在了中途。复盘下来,一个结论越来越明确:

LLM 的能力,可能只被用到了 10%;剩下的 90%,卡在工程层。


一、那 10%,用在了哪里?

先说“已经被用到的那一小部分”。

大多数团队对 LLM 的使用,集中在这些场景:

  • 简单对话 / 问答
  • 文案生成
  • 代码补全
  • 单轮 Agent 调用
  • 内部工具提效

这些场景的共同点是:

  • 请求不密集
  • 出错成本低
  • 不需要强 SLA
  • 偶尔慢一点、错一点可以接受

在这个层级,模型能力决定体验。

所以很多人会误以为:

“模型已经这么强了,AI 应该很好落地。”

但真正的问题,从你试图把 LLM 接进 核心系统 的那一刻开始。


二、真正没被释放的 90%,卡在什么地方?

1️⃣ 卡在「延迟不可预测」

Demo 阶段你会发现:

  • 有时 500ms
  • 有时 3 秒
  • 有时直接超时

当 LLM 进入这些场景时:

  • 客服系统
  • 搜索补全
  • 实时决策
  • 多 Agent 协同

“平均延迟”这个指标已经没有意义了,P95 / P99 才是真正的生死线。

但很多团队第一次上线时才发现:

原来 API 的延迟,比模型能力更影响用户体验。


2️⃣ 卡在「并发一上来就不稳」

一开始是这样的:

  • 测试环境:一切正常
  • 小流量灰度:还能接受
  • 正式上线:429、502、超时轮番出现

原因并不复杂:

  • 官方 API 的并发限制
  • 网络抖动
  • 单模型单通道
  • 没有请求缓冲和降级

模型没崩,系统先崩了。

这也是为什么很多 AI 项目不是“失败”,而是“被悄悄下线”。


3️⃣ 卡在「模型不是随便就能换」

理论上大家都说:

“模型不行就换。”

现实是:

  • Prompt 强绑定模型行为
  • 不同模型 token 结构不同
  • 输出稳定性差异巨大
  • 切换成本远高于想象

结果就是:

模型选型一旦失误,整个系统就被锁死。

这 90% 的潜力,不是模型没给,是工程结构不允许你用。


4️⃣ 卡在「成本失控,但没人能提前算清楚」

2025 年,很多团队第一次被 LLM 账单“教育”。

  • 单次调用不贵
  • 乘以 QPS
  • 再乘以全天
  • 再叠加重试

最后发现:

AI 成了系统里最不可控的一项成本。

而真正的问题是:
调用路径不透明、缺乏统一治理。


三、真正的分水岭:LLM 是“工具”,还是“基础设施”?

到这里,很多工程师会意识到一个转折点:

  • 如果你只是“用模型”,问题不大
  • 如果你要“跑系统”,问题全来了

当 LLM 变成长期运行的能力,你关心的就不再是:

  • 模型强不强

而是:

  • 稳不稳定
  • 能不能兜底
  • 能不能切换
  • 成本是否可控
  • 出事能不能止血

这时候,模型已经退居二线,API 接入层成为主角。


四、为什么越来越多团队开始重视“中转层”?

2025 年,一个明显的趋势是:

工程团队开始把 LLM 当成外部不稳定依赖来治理。

这催生了对中转 API / 聚合层的真实需求:

  • 统一入口
  • 多模型路由
  • 并发与限流
  • 失败自动切换
  • 成本结构透明

也正是在大量企业真实踩坑之后,像 poloapi.top 这样的中转API平台,开始被放到“基础设施”层面来评估,而不再只是“便捷工具”。


五、写在最后:LLM 的上限,不在模型发布会

回头看 2025 年,你会发现一个很现实的结论:

LLM 的能力早就在那里了,只是大多数系统接不住。

真正限制 AI 上限的,不是参数规模,也不是新模型发布时间,而是:

  • 工程结构是否允许规模化
  • API 是否足够稳定
  • 架构是否为长期运行而设计

当这些问题被解决,那剩下的 90% 潜力,才有被真正释放的可能。

而这,恰恰不是模型公司最擅长的事,却是一线工程世界里,必须有人把坑踩完、把路铺平的部分。

相关文章
|
1天前
|
自然语言处理 监控 测试技术
互联网大厂“黑话”完全破译指南
互联网大厂黑话太多听不懂?本文整理了一份“保姆级”职场黑话词典,涵盖PRD、A/B测试、WLB、埋点、灰度发布等高频术语,用大白话+生活化类比,帮你快速听懂同事在聊什么。非技术岗也能轻松理解,建议收藏防踩坑。
57 16
|
1天前
|
机器学习/深度学习 人工智能 安全
构建AI智能体:八十六、大模型的指令微调与人类对齐:从知识渊博到善解人意
本文探讨了大模型从知识储备到实用助手的进化过程。首先分析了原始预训练模型存在的问题:擅长文本补全但缺乏指令理解能力,可能生成有害或无关内容。然后详细介绍了指令微调技术,通过高质量(指令-输出)数据集教会模型理解并执行翻译、总结、情感分析等任务。进一步阐述了人类对齐技术,包括基于人类反馈的强化学习(RLHF)的三个关键步骤,使模型输出不仅符合指令,更符合人类价值观。最后展示了Qwen模型微调实践,包括代码实现和效果对比。整个过程将AI从知识库转变为既强大又安全可靠的智能助手。
60 18
|
1天前
|
弹性计算 固态存储 大数据
2026年阿里云服务器活动,云服务器租用价格多少钱一年?
2026年阿里云服务器活动,云服务器租用价格多少钱一年?2026年阿里云服务器租用价格表已更新:轻量2核2G轻量服务器一年68元,折合5.6元1个月,新老用户同享99元一年服务器,2核4G5M服务器ECS优惠价199元一年(企业专享),2核4G4M轻量服务器298元一年,4核8G服务器955元一年,4核16G10M服务器70元1个月、210元3个月,8核32G服务器160元1个月、480元3个月,整理2026阿里云服务器租用费用价格表,包括一年优惠价格、一个月和1小时收费明细表:
|
24天前
|
机器学习/深度学习 运维 Cloud Native
别再拍脑袋扩容了:用 ML 做容量预测,才是云成本和性能的最优解
别再拍脑袋扩容了:用 ML 做容量预测,才是云成本和性能的最优解
116 17
|
3天前
|
人工智能 Java API
【JAVA编程】全栈开发者如何构建 AI 大模型应用:OpenAI 与 Gemini 3.0 Pro 接入深度解析
Java开发者需关注API网关架构,以解决大模型调用中的供应商锁定、网络延迟与密钥管理难题。通过Spring Boot集成OpenAI兼容协议,结合poloapi.top聚合网关,实现多模型统一调用、低延迟访问与安全合规,构建稳定高效的企业级AI中台。
|
12天前
|
存储 人工智能 运维
AI重构知识管理:如何破解技术团队的6大效率困局
通过AI全链路赋能,实现技术文档智能生成、语义检索、隐性知识沉淀与企业级安全管控,破解研发中API文档低效、故障排查慢、知识复用难等痛点,提升文档效率300%、故障修复提速80%,助力团队从“被动管理”迈向“智能协同”,重构高效能研发新范式。
84 12
|
12天前
|
人工智能 缓存 监控
Coze AI 智能体工作流:配置与实战完整指南
本文详细介绍了如何利用Coze平台的工作流功能构建智能AI助手。通过解析核心组件并演示“个性化旅行规划师”的完整配置案例,文章展示了如何设计并行处理、集成外部工具并优化性能。重点探讨了工作流的模块化设计、版本控制及成本优化等进阶技巧,旨在帮助用户将AI从简单工具转变为能处理复杂任务、甚至具备自学习能力的业务伙伴。
|
24天前
|
运维 监控 数据挖掘
运维数据分析:别再只会翻日志了,真正的价值在“洞察”
运维数据分析:别再只会翻日志了,真正的价值在“洞察”
105 16
|
11天前
|
人工智能 监控 Cloud Native
云原生AI赋能文旅数智化转型:玄晶引擎AI数字员工落地长白山康养项目全解析
本文以长白山大健康企业为例,介绍其通过玄晶引擎云原生AI数字员工实现“养生+文旅”模式智能化升级的实践。涵盖技术架构、运营适配、营销创新与落地经验,展现AI在内容生产、客服转化、B端获客等环节的全链路赋能,助力企业收益率提升47%、团队扩张35%,为文旅产业数智化转型提供可复用范本。
97 12
|
2天前
|
人工智能 API 开发者
2026年 AI LLM API 开发趋势:技术、架构与应用深度探讨
2026年,LLM API已成为企业开发核心。本文详解API调用、Prompt工程、多轮对话与流式输出,结合聚合平台如poloapi.top,助力开发者高效构建AI应用,把握技术前沿。