别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

简介: 别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”

别再半夜敲命令了:用 LLM + 自动化脚本,把 Runbook 变成“会思考的运维同事”


我先问你一个问题,你别急着回答,先在脑子里过一遍:

你们团队的 Runbook,是不是长这样?

  • Wiki 里躺着
  • 写得很全,但没人翻
  • 真出故障的时候,大家靠“肌肉记忆 + 经验”
  • 最后修好了,再补一句:“下次注意”

说句扎心的:
传统 Runbook,本质是“给人看的文档”,不是“给系统用的能力”。

而 LLM 的出现,第一次让我觉得:

Runbook,终于可以不只是文档了。


一、Runbook 的最大问题,从来不是“没写”

很多管理者以为:

“我们缺的是 Runbook”

但干过运维的人都知道,真正的问题是:

  • 故障发生时

    • 你来不及翻
    • 翻到了也不一定匹配
  • 每个环境都不一样
  • 每次事故都有“变种”

所以现实是:

Runbook ≠ 执行
Runbook ≠ 决策
Runbook ≠ 修复

它只是“参考资料”。


二、LLM 出现后,Runbook 这件事彻底变味了

我第一次把 LLM 接进告警链路时,脑子里冒出来一句话:

“这不就是一个 24x7 不会累、不怕背锅、还愿意查文档的运维吗?”

当然,它不是“替代人”,
而是把人从低价值动作里解放出来

LLM 能帮 Runbook 做什么?

简单拆一下:

  1. 读懂告警
  2. 结合上下文判断场景
  3. 选择对应的处理流程
  4. 触发自动化脚本
  5. 回收结果,再判断是否升级

这一步一拆,你会发现:

Runbook,开始“活”了。


三、智能 Runbook 的核心架构(说人话版)

我不画复杂架构图了,用一句话总结:

LLM 负责“想”,脚本负责“干”。

一个典型链路是这样的:

告警 → LLM 分析 → 生成修复计划 → 自动化脚本执行 → 结果反馈 → 再决策

注意重点:

  • LLM 不直接干活
  • 脚本不自己做决定
  • 两者各司其职

四、一个真实得不能再真实的场景

场景:

凌晨 2 点,Prometheus 告警:

API 错误率 > 5%,持续 3 分钟

传统流程:

  1. 值班同学醒来
  2. 看 Grafana
  3. 查日志
  4. 判断是不是数据库、缓存、网络
  5. 手敲命令
  6. 修完写复盘

智能 Runbook 流程:

  1. 告警触发
  2. LLM 接收上下文:

    • 告警信息
    • 最近发布记录
    • 历史故障案例
  3. LLM 输出判断:

    “疑似某节点连接池耗尽,建议重启 해당 pod,并检查最大连接数配置”

  4. 触发脚本
  5. 校验结果
  6. 成功 → 自动关闭告警
    失败 → 升级人工

五、LLM 到底“聪明”在哪?

不是它会敲命令,
而是它会“选策略”

举个例子。

同样是服务不可用:

  • 有时是:

    • 连接池耗尽
  • 有时是:

    • JVM Full GC
  • 有时是:

    • 配置下发错误

传统脚本是:

systemctl restart service

智能 Runbook 是:

“在重启之前,我先看看值不值得重启。”


六、一个简化版的 LLM 决策示例

prompt = f"""
当前告警:
{alert_text}

系统状态:
- CPU: {cpu}
- Memory: {mem}
- GC: {gc}
- 最近发布:{deploy_info}

请判断最可能原因,并给出处理建议(仅返回步骤)。
"""

response = llm.generate(prompt)

LLM 输出的不是“命令”,而是策略

1. 检查连接池使用率
2. 若超过 90%,重启 pod
3. 重启后观察 2 分钟
4. 若未恢复,升级人工

然后,你再把它映射成白名单脚本

if pool_usage > 90:
    kubectl rollout restart deploy/api

这一步非常关键:

❌ LLM 不直接执行命令
✅ LLM 只决定“走哪条路”


七、为什么我强烈反对“LLM 直接 SSH 上服务器”

说句不好听的:

这不是智能运维,这是“智能自杀”。

正确姿势是:

  • 所有可执行动作

    • 都提前脚本化
  • LLM

    • 只能在“允许的动作集合”里选择

你要给 LLM 的不是 root 权限,
而是一个受控的操作菜单


八、智能 Runbook 最有价值的三个地方

1️⃣ 把经验变成系统能力

老运维脑子里的:

“我一看这告警就知道怎么回事”

终于可以被“固化”了。


2️⃣ 降低夜间故障的人力成本

不是每个告警都值得把人叫醒。

  • 能自动修的 → 自动
  • 修不了的 → 带着结论叫人

这差别太大了。


3️⃣ 事故复盘质量明显提升

因为 LLM 会记录:

  • 当时看到了什么
  • 为什么选这个策略
  • 执行结果如何

复盘第一次变成:

“我们为什么这样判断”

而不是:

“当时太乱了,记不清了。”


九、但我必须泼一盆冷水

智能 Runbook 不是银弹

它非常不适合:

  • 架构混乱
  • 自动化基础为零
  • 环境差异极大
  • 没有操作边界意识的团队

如果你现在连:

  • 标准化部署
  • 脚本收敛
  • 权限治理

都没做,
先别急着上 LLM。


十、我的真实感受(说句人话)

我做运维这么多年,第一次觉得:

“Runbook,终于不是给新人背的了。”

LLM 不是来抢饭碗的,
它是来把人从“重复、低价值、容易出错”的动作里拉出来的。

让人去干更值钱的事:

  • 架构优化
  • 稳定性设计
  • 故障预防

最后一句话送你

未来最值钱的运维,不是敲命令最快的,而是最会“设计自动化决策”的。

目录
相关文章
|
5天前
|
云安全 监控 安全
|
3天前
|
存储 机器学习/深度学习 人工智能
打破硬件壁垒!煎饺App:强悍AI语音工具,为何是豆包AI手机平替?
直接上干货!3000 字以上长文,细节拉满,把核心功能、使用技巧和实测结论全给大家摆明白,读完你就知道这款 “安卓机通用 AI 语音工具"——煎饺App它为何能打破硬件壁垒?它接下来,咱们就深度拆解煎饺 App—— 先给大家扒清楚它的使用逻辑,附上“操作演示”和“🚀快速上手不踩坑 : 4 条核心操作干货(必看)”,跟着走零基础也能快速上手;后续再用真实实测数据,正面硬刚煎饺 App的语音助手口令效果——创建京东「牛奶自动下单神器」口令 ,从修改口令、识别准确率到场景实用性,逐一测试不掺水,最后,再和豆包 AI 手机语音助手的普通版——豆包App对比测试下,简单地谈谈煎饺App的能力边界在哪?
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1201 7
|
2天前
|
人工智能
自动化读取内容,不会写爆款的普通人也能产出好内容,附coze工作流
陌晨分享AI内容二创工作流,通过采集爆款文案、清洗文本、智能改写,实现高效批量生产。五步完成从选题到输出,助力内容创作者提升效率,适合多场景应用。
208 104
|
16天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
1189 41
|
4天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
353 11
|
16天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
973 79
大厂CIO独家分享:AI如何重塑开发者未来十年
|
12天前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
578 32

热门文章

最新文章