5.9 运维与性能
5.9.1 SysAK:大规模复杂场景的系统运维利器
概述
SysAK(System Analyse Kit)是龙蜥社区系统运维SIG,通过对过往百万服务器运维经验进行抽象总结,而提供的一个全方位的系 统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。工具的整体设计上,力图让运维工作回 归简单,让系统运维人员不需要深入了解内核就能找出问题的所在。
技术描述
SysAK在功能集上会进行全方位覆盖,垂直打通整个应用的生命周期。当前工具支持监控和诊断两种模式。其中监控模式下SysAK常 驻后台,为运维人员提供系统的各项指标。而诊断模式随用随启,主要用于分析不同运维场景下的系统现象诊断与程序控制等。其 整体功能如下图所示:
SysAK不仅限于一个工具集,除了提供系统运维工具本身外,还设计实现了一套工具开发框架。并通过松散耦合、依赖管理、多架 构多版本的构建支持等方式,保障了工具开发者,一次开发,无需额外工作,就能在主流的架构和操作系统版本上集成。其整体结 构如下图所示,
应用场景
SysAK提供的诊断工具可满足不同应用场景的运维需求:
日常监控:针对各种系统资源更精细化的资源监控,帮助业务运维实现细粒度的运维调度和资源控制。除此之外,还实现了许多增
强的系统指标,实时监控系统的干扰和抖动等情况。
问题诊断:针对负载异常、网络抖动、内存泄漏、IO夯、性能异常等情况提供线上诊断功能。 同时减少工具的专业性,可操作性强。
故障修复:对于非整机异常的问题(例如死锁、夯机等), 该工具提供介入能力对系统进行恢复或故障隔离。