如何利用 AI Agent 实现热补丁的自动化生成

简介: 详细剖析了如何利用 AI Agent 实现热补丁的自动化生成,成功将补丁制作周期从“天级别”压缩至“分钟级别”。

编者按在 AI 技术的推波助澜下,高危内核 CVE 以周级频率爆发,系统修复面临前所未有的压力。尽管内核热补丁技术克服了传统修复需重启服务器的弊端,实现了业务零中断,但从上游原始 Patch 到可加载热补丁的转化过程,仍依赖大量繁琐的人工改写。

针对这一痛点,龙蜥社区系统运维 SIG 成员高向阳在 2026 全国大学生计算机系统能力大赛技术培训会上,详细剖析了如何利用 AI Agent 实现热补丁的自动化生成,成功将补丁制作周期从“天级别”压缩至“分钟级别”,有力证明了 AI Agent 已成为驱动内核安全修复效率变革的新引擎。以下为本次分享内容:

背景:AI辅助下的内核CVE周级涌现

如果你最近关注 Linux 内核安全动态,一定已经注意到一个令人警惕的趋势——在 AI 的辅助下,高危内核 CVE 正以周级的速度密集涌现。

以近期引发广泛关注的几个漏洞为例:安全研究员首先提出攻击假设,再由 AI 枚举出完整的攻击路径。其中某个漏洞在公开后一小时内就被 AI 发现,影响范围覆盖从 Linux 4.14 到 6.19、长达七年的所有内核版本。攻击方式也极为简单粗暴——仅需一个七百多字节的 Python 程序,即可通过攻击 Page Cache 实现一键本地提权至 root。

更令人担忧的是,这些漏洞的发现和公开速度越来越快。从某个漏洞公开到下一个漏洞被发现,间隔甚至不到一周。很多企业在第一个漏洞尚未修复完成时,第二个、第三个漏洞已经接踵而至,修复压力巨大。

而在多租户云环境中,这些可被用于本地提权的漏洞一旦利用成功,主机逃逸将变得易如反掌,线上大量的 Linux 服务器都需要尽快修复。

传统修复 vs 内核热补丁

传统方式:升级内核,必须重启

传统的内核修复流程通常是:获取最新的修复补丁 → 重新构建内核镜像 → 重新部署替换 → 重启服务器生效

整个流程对业务最大的影响就是必须重启服务器,这意味着业务中断。

内核热补丁:飞行中更换引擎

相比之下,内核热补丁(Live Patching)最大的优势就是无需重启,就像在一架飞行中的飞机上更换引擎零件,业务无感知地完成修复。具体而言,内核热补丁在 CVE 修复场景中有两大核心优势:

  • 构建、测试和部署流程更快
  • 无需重启,业务影响极小

技术框架:内核热补丁是如何工作的?

内核热补丁整体技术框架可分为三层,第一层为 kpatch工具链。kpatch 是一套用于构建和管理内核热补丁的工具。其中 Kpatch-build 是核心组件,其流程是:

  • 对原始内核源码进行一次全量构建
  • 打上 Patch 文件,再进行一次增量构建
  • 对比二进制层面 .o 文件的差异,确定哪些函数被修改
  • 将修改后的函数链接到一起,生成最终的 .ko 内核模块
  • 加载这个 .ko 模块后,完成对特定函数链路的修复

第二层是 Livepatch 子系统。Kpatch 在内核中由 Livepatch 子系统支撑。该子系统在内核 4.0 及以上版本中已原生支持,其本质是通过 Ftrace 实现函数的动态重定向。第三层为 Ftrace 插桩机制。Ftrace 在编译时为每个函数的入口预留了一条空指令。在运行过程中,可以将这条空指令动态替换为跳转指令,跳转到新的函数入口,从而实现函数重定向。总体逻辑就是在内核运行过程中,替换特定函数的入口地址,使其跳转到新的函数实现。

从上游 Patch 到可加载热补丁存在一道鸿沟

上游的修复 Patch 并不能直接转化为可加载的热补丁,Kpatch 工具链对补丁有很多约束和限制:

约束项 说明
不能修改 init 函数 这些函数在引导阶段执行完毕后,对应内存段已被释放,无法再替换
不能修改静态分配的数据 例如向全局数组新增元素或变量
不能修改缺少 fentry 的函数 例如 lib 下的很多库函数采用静态链接,编译时未预留 fentry 入口
不能改变导出符号的签名 这会破坏内核 ABI,影响其他模块的调用
不能更改现有数据结构 例如向结构体中增加字段,运行中无法替换所有实例且风险极大
不能删除对静态局部变量的引用 /

由于这些约束的存在,上游修复 Patch 不能直接使用,必须经过人工改写和适配。目前这一过程完全依赖人工完成,一个 CVE 修复 Patch 可能需要数小时甚至数天才能完成改写。再加上线上存在大量不同版本的内核,每个版本迁移时还要根据基线差异进行额外调整。

当 CVE 密集涌现时,人工改写将成为瓶颈。

实战案例:copy_file 漏洞的热补丁改写

以近日公开的 copy_file 漏洞为例,我们来看看上游修复 Patch 到热补丁的实际改写过程。该漏洞源于加密模块中的一个零拷贝优化,导致越权篡改了只读的 Page Cache。攻击者可通过篡改 password 或 setuid 等文件,运行一段简单的 POC 程序即可从任意用户直接提权至 root,且影响范围时间跨度较长。

上游的修复方案是:回退 2017 年引入的零拷贝优化,改为拷贝后再写入。

上游修复的复杂度

以某个主流发行版的 5.10 内核开发分支为例,修复该 CVE 需要回合多个前置依赖 commit,最终提交包含十个 commit、十一个文件的修改,插入和删除的行数非常多。

直接构建热补丁会遇到的问题

如果直接用上游修复提交来构建热补丁,会遇到以下几类问题:

  • 问题一:修改了 Kernel Config

Patch 中包含了内核配置文件的修改。Config 用于控制编译过程,这种修改不仅无意义,还会导致大量代码条件编译发生变化,产生大量不被允许的修改。而修复该漏洞实际上并不需要修改内核配置。

  • 问题二:导出函数删除了参数

有两个函数删除了末尾的参数。一般情况下这种修改没有问题,但由于这两个函数是导出函数,直接删除参数相当于修改了函数签名,破坏了 ABI,这是不被允许的。

  • 问题三:删除了结构体成员

有两个结构体删除了部分成员。由于属于静态数据结构,这种修改不支持——无法在加载过程中替换所有数据结构实例,也无法更改内存布局。

  • 问题四:新增函数声明了导出符号

新增函数本身没有问题,但上游 Patch 中增加了导出符号的声明。内核运行时的符号表已固定,无法扩容或注册新符号,这也是不允许的。

改写策略

针对以上四类问题,我们分别采取以下改写策略:

  • Config 修改 → 直接去掉,不需要改内核配置
  • 删除参数 → 保留参数,仅在内部逻辑中不再使用该参数即可
  • 删除结构体成员 → 保留成员不删除,不再使用即可
  • 新增函数导出 → 去掉导出符号声明,函数仅在模块内部使用,不影响修复目的

改写完成后,文件变化从十一个缩减至七个,构建成功,加载后也能正常达成 CVE 修复的目的。

2026 大学生 OS 赛题要求及标准

2026 全国大学生计算机系统能力大赛中,龙蜥“内核 CVE 热补丁自动生成智能体”赛题,要求智能体能够在不改变原修复语义的基础上,自动完成补丁的改写和构建,达到高效、安全修复内核漏洞的目的。同时,高向阳也对参赛队伍提出了具体的评估标准和要求。

更多赛题详情点击右侧链接查看:龙蜥邀您参加 2026 全国大学生计算机系统能力大赛

结语

AI 不仅重塑了漏洞发现的效率,更应成为加速漏洞修复的核心驱动力。在 2026 全国大学生计算机系统能力大赛中,我们致力于推动内核热补丁技术从“人工驱动”向“智能体(Agent)驱动”的范式跃迁,通过引入 AI 智能体,旨在将热补丁的生成周期从传统的“天级”大幅压缩至“分钟级”。我们也期待各参赛队伍深耕系统底层,提出具有前瞻性与落地价值的创新解决方案。

视频回放链接:https://openanolis.cn/video/1633914108607529089

加入交流群

若你对智能运维(AIOps)、可观测性等感兴趣,欢迎搜索群号:94405014449 加入【操作系统控制台钉钉交流群】。在这里,你可以直接体验控制台最新功能,与社区大佬面对面交流最佳实践,获取第一手的技术答疑。

相关阅读文章:

从“救火”到“预见”:汽车行业操作系统智能运维解决方案

开源!智能运维助手上线,SysOM MCP 为 AI Agent 打开系统诊断之门

Anolis OS 深度集成运维利器,阿里云操作系统控制台上线

—— 完 ——

相关文章
|
14天前
|
缓存 弹性计算 运维
运维不再需要“老师傅”——OS 运维 Skills 发布,欢迎体验
让任何运维 Agent 具备资深内核专家的诊断能力。
|
6天前
|
数据采集 人工智能 分布式计算
多Agent集群中的"情报官"设计:为什么系统需要一个RDD
在多Agent系统中,信息采集环节的失误往往是级联错误的根源。本文从行业实践和学术研究两个维度,论证了专职情报采集Agent的必要性,并详细解析了枢衡RDD(资源探测)的五大架构设计原则,包括与CAD的对抗性协作机制等。最后提供了一套可落地的自检清单,帮助开发者判断自己的Agent集群是否需要引入专职情报官角色。
|
5天前
|
人工智能 缓存 运维
CC Switch路由代理技术解析:Codex CLI无缝对接DeepSeek模型实操指南
在现代AI开发与命令行智能编程场景中,Codex CLI是开发者常用的命令行智能辅助工具,能够实现代码生成、问题排查、脚本编写、项目调试等自动化能力。但原生Codex CLI存在明显的适配局限,其底层仅兼容OpenAI Responses API协议,无法直接对接DeepSeek等主流第三方大模型。市面上绝大多数第三方开源、商用大模型均采用Chat Completions API协议,两种协议在请求结构、参数格式、流式返回规则、响应字段定义上完全不互通,直接填写第三方模型接口地址会出现接口404报错、参数解析失败、流式内容中断、模型列表加载异常等各类问题,极大限制了Codex CLI的模型拓展
260 1
|
8天前
|
SQL 人工智能 监控
当我们在聊 Agent 时,我们到底在聊什么——兼谈 Skills 和 Workflow 的定位
本文厘清AI领域最易混淆的三大概念:Workflow(预定义流程)、Skills(封装化AI能力)与Agent(运行时自主决策)。核心差异在于“自主决策链条长度”——Workflow靠人工设计、Skills重模块复用、Agent擅动态规划。三者非替代关系,而应按场景组合使用,避免概念滥用。
|
11天前
|
人工智能 算法 安全
医疗AI智能体:多意图命中下的智能路由:高风险优先的医疗SKILL调度算法详解.141
该算法为医疗大模型构建智能调度中枢,通过SKILL模块化、意图路由、竞争调度与四级优先级(P0-P4)机制,确保危急问题绝对优先。融合置信度打分、上下文衰减、历史偏好加权,实现精准、安全、可扩展的医疗决策支持。
126 3
|
11天前
|
人工智能 前端开发 Java
代码是祖传的/外包的,论文怎么写?实测AST解析+LLM逆向生成论文,导师看了直呼内行
本文直击2026届计算机毕业生痛点:手握“祖传代码”却写不出8000字论文。首创“AST解析+语义还原+学术化转换”技术路径,10分钟将5000行Spring Boot代码自动转化为1.2万字结构完整、逻辑严谨的论文初稿,精准 bridging 代码与学术表达的鸿沟。
|
10天前
|
存储 弹性计算 安全
阿里云服务器收费标准与活动价格:2026最新ECS、轻量、GPU价格与优惠解析
本文整理了阿里云服务器(ECS)、轻量应用服务器及GPU云服务器的2025年最新收费标准与活动优惠。轻量应用服务器2核2G配置低至38元/年,性价比突出;ECS经济型e实例2核2G活动价99元/年,人人可享且续费不涨价;2核4G企业专享199元/年,2核8G经济型月付162元起。GPU云服务器方面,A10卡GN7i实例32核188G活动价3213.99元/月起。
|
9天前
|
传感器 运维 安全
AR 设备进入高压强电磁环境:安全性解析与行业价值重构
随着工业数字化加速,AR技术正深度赋能电力、轨交等高压强电磁场景。本文系统解析其核心挑战——传导/辐射干扰与绝缘风险,并阐述工业级AR通过电磁兼容设计、多重绝缘防护及权威标准认证构建的三重安全防线。在确保安全前提下,AR显著提升作业效率、强化实时安全管控、加速经验传承、优化运维成本,推动行业向“数字赋能、全程可控、人机协同”新范式跃升。(239字)
|
11天前
|
弹性计算 安全 数据库
阿里云办公安全平台SASE完全对接指南:零信任架构下的企业安全接入实践
本文是一篇全面深入的阿里云办公安全平台SASE(Secure Access Service Edge)对接使用指南。文章从零信任安全理念出发,系统介绍了SASE的核心概念与产品架构,详细阐述了从开通服务、配置身份源(支持IDaaS、LDAP、钉钉、企业微信等多种对接方式)、添加办公应用到配置零信任策略的全流程操作。重点讲解了SASE如何与阿里云IDaaS实现单点登录SSO、如何安全对接云上ECS、RDS数据库等资产、如何配置终端安全基线实现动态访问控制,以及如何进行办公数据防泄漏保护。文中还提供了Python SDK集成代码示例,帮助开发者实现自动化管理。文章最后通过问答形式总结了常见问题与解

热门文章

最新文章