ITIL4实践之运维自研系统(上篇)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 运用ITIL4实践,分析机会、风险、输入输出,探索自研运维平台。

一、前言

  • 机会
1. 构建系统化运维体系,淘汰随机的日常运维所引发的各种不确定性与资源浪费
2. 显著提升运维部在MES软件工程中的管理层级与驱动力


  • 风险
1. 前期投入大量时间进行设计论证
2. 设计方案或设计系统因满足对接等需求等缺陷,面临推倒重来的情况
3. 研发人员有效投入时间与可控产量的工时评估,每个阶段研发工时未能充分利用
4. 认知决定结果,来自领导层的持续认可与持续支持,影响到相应资源的获取与分配


  • 可用资源
1. 技术专家
2. 自建机房
3. 云资源
4. 供应商
5. 实施中心


  • 欠缺资源
1. 系统规范设计与整合经验
2. 前端研发
3. 后端研发


二、运维平台自研系统管理架构

  • 统一管理项目运维各项设施,分阶段按优先级落地实施。
1. 从基线出发,统计现有运维措施清单,包含并不限于文档、脚本、程序、人员
2. 综合评估实施的优先级,并始终保持简单易实现设计原则
3. 按优先级分配到对应实施阶段,确定具体任务得到必要的分解,投入必要时间与人员等资源促成落地
4. 分解具体系统平台实现涉及的任务与时间分配,包含并不限于概念文档、原型设计、Demo测试、开放性测试


  • 应用对象与范围约束
1. 应用对象:客户
    作为运维节点,内置到MES系统中,随交付一并实施,供日常运维操作使用。
2. 应用对象:运维部
    作为运维平台中心,全局管理客户的运维节点。


  • 项目运维生命周期中涉及的系统清单
名称 目标
备份管理系统 执行状态、文件状态
点检管理系统 执行状态
基础设施管理系统 软硬件续保状态、备件状态
演练管理系统 资源状态、定制模板镜像
代码管理系统 代码收集、版本变更
日志管理系统 增量变化状态、错误码收集
数据库管理系统 表结构状态、增量变化状态
配置中心系统 数据包、配置文件、激活服务
平台管理系统 系统工作状态、版本
前端交互系统 对接后端系统,进行内容展示当日、七日、十四日历史曲线展示
K8S管理系统 yml文件规划、资源编排、image版本管理
数据管理系统 各项系统数据收集、数据清洗、数据挖掘

三、人员编制

  • 职责关系
称谓 分工 工具
规划设计 系统架构设计、功能规划、设计方案文档输出 Excel、PPT
前端开发 UI原型设计、页面开发、交互设计、用户文档输出 Vue.js
后端开发 系统逻辑实现、框架结构、接口文档输出 Node.js、python
QA测试 功能测试、报告输出 Excel、Word
用户 第三方使用体验 浏览器

四、流程

  • 设计方案
1. 目标功能定义
2. 功能整合与裁剪
3. 设计重构
4. 验收标准与系统交付


  • 系统逻辑
1. 逻辑接口定义
2. 逻辑功能实现
3. 数据保存
4. 后端开发优化与bug修复


  • 页面设计
1. UI原型设计
2. 页面访问功能实现
3. 页面功能关联后端接口
4. 前端开发优化与bug修复


  • 功能验收
1. 接口测试
2. 功能测试
3. 故障测试
4. 汇总报告


五、功能模拟

  • 功能组件
名称 功能 特点
Ansible 批量管理、命令执行 被控端只需支持ssh,无需安装agent
Filebeat 日志收集 轻量级日志收集器,低系统消耗
ELK 日志综合 支持数据过滤,定制展示格式
Promethues 监控 数据查询 DSL 语言、指标灵活定义
Zabbix 监控 第三方模块成熟
Vue.js 用户界面 快捷开发,支持库较多,开发难度低
Node.js javascript运行环境 响应静态动态请求,管理难度低
Python 衔接各系统接口、接口测试 兼容性强、开发难度低
DB 数据存储 按需选择数据库类型,易于管理优先

后文

从元数据开始定制,轻巧易用的运维服务平台。

探索从未停止...


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
9天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
84 23
|
18天前
|
机器学习/深度学习 运维 监控
利用深度学习进行系统健康监控:智能运维的新纪元
利用深度学习进行系统健康监控:智能运维的新纪元
81 30
|
4天前
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
|
10天前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
49 9
|
18天前
|
存储 弹性计算 运维
云端问道 7 期实践教学-使用操作系统智能助手 OS Copilot 轻松运维与编程
使用操作系统智能助手 OS Copilot 轻松运维与编程
44 14
|
1月前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
20天前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
47 0
|
1月前
|
运维 监控 Devops
自动化运维实践:打造高效的DevOps流水线
在软件开发的快节奏中,自动化运维成为提升效率、确保质量的关键。本文将引导你理解自动化运维的价值,通过实际案例分享如何构建一个高效、可靠的DevOps流水线。我们将从持续集成(CI)开始,逐步深入到持续部署(CD),并展示代码示例来具体说明。准备好让你的运维工作飞跃式进步了吗?让我们开始吧!
|
1月前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
253 4
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
54 4

热门文章

最新文章