《IT运维之道》一3.3 掌握服务平衡

简介:

本节书摘来异步社区《IT运维之道》一书中的第3章,第3.3节,作者: 李鹏 责编: 张涛,更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.3 掌握服务平衡

IT运维的第一件要事是按照IT运维服务的原则做事,第二件要事就是将这些原则应用到IT运维服务工作当中。IT运维服务工作从服务的发起方来看可以分为主动服务和受理服务。

我们曾将IT运维专家比作IT系统的保健医生,保健医生最重要的能力是“治未病”的能力。在我国关于“治未病”最著名的故事是扁鹊见蔡桓公的故事。有一天,扁鹊进见蔡桓公,在蔡桓公面前站一会儿,说道:“您的皮肤纹理间有点小病,不医治恐怕要加重。”蔡桓公说:“我没有病。”扁鹊离开后,蔡桓公说:“医生喜欢给没病的人治‘病’,以此作为自己的功劳。”过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肌肉和肌肤之间,再不医治,会更加严重的。”蔡桓公不理睬,扁鹊走后,蔡桓公又不高兴。过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肠胃,再不医治,会更加严重的。”蔡桓公还是不理睬。扁鹊走后,蔡桓公又很不高兴。又过了十天,扁鹊再进见时远远看了蔡桓公一眼,转身就跑。蔡桓公特意派人去问他为什么跑,扁鹊说:“皮肤纹理间的病,是烫熨的能力所能达到的;肌肉和肌肤之间的病,是针石的能力所能达到的;肠胃的病,是药剂的能力所能达到的;病到了骨髓里,那是管辖命的神的事情了,医生是没有办法的。蔡桓公的病现在已到了骨髓,因此我就不再请求给他治病了。”过了五天,蔡桓公身体疼痛,派人去寻找扁鹊,扁鹊已经逃到秦国去了。蔡桓公后来就不治而亡了。

“治未病”的概念最早出现于《黄帝内经 》,在《素问·四气调神大论》中提出:“是故圣人不治已病治未病,不治已乱治未乱,此之谓也。夫病已成而后药之,乱已成而后治之,譬犹渴而穿井,斗而铸锥,不亦晚乎!”对于IT运维服务而言“治未病”就是主动服务,“治已病”就是受理服务。

3.3.1 主动服务
主动服务是服务者主动为用户提供一系列运维服务,其目的是为系统提供防患于未然的维护保养服务,使得系统长期处于一个健康稳定的状态。主动服务是确保信息化系统安全、高效、平稳运作的有效手段。主动服务还可以让用户获得更好的服务体验,更好地了解系统的运行状况和未来需要配备的备机及备件资源等,从而使用户对服务者产生信赖感。主动服务的形式包括:向用户提供服务计划、对IT系统定期巡检、设计必要的应急预案等。主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等。主动服务完成的效果可以从策略制定、计划实施、服务评价三个方面进行评价。

能够做好主动服务的IT服务者通常是条理性好、目的性强、对IT系统的各子系统了解比较清晰的人。他们会用心地研究IT服务的内容,编制好系统定期养护的计划。

3.3.2 受理服务
受理服务是用户在发生故障时向运维服务者提出服务需求并获得运维服务的过程,其目的是在信息化系统意外发生故障时得到快速有效的解决,从而减小对业务的影响。受理服务包括受理各类用户电话请求(故障请求、服务请求、咨询请求等)、远程请求和现场服务请求。受理服务标准包含三方面:受理服务分类标准、受理服务处理规范、受理服务效率要求。这些工作将由服务提供商和用户共同确认,双方彼此都接受与认可,作为日后执行受理服务的目标与要求。

服务提供商的资源是有限的,而用户的需求依据不同的服务类型是有轻重缓急之分的,如何将有限的资源分配给不同类型事件,需要对事件依据一定的策略进行分级,这就形成了受理服务分类标准。在分类标准的基础上,针对不同类型的事件应有相应的处理规范与子流程,以确保资源得到合理分配,这就形成了受理服务处理规范。而每一事件的处理都有一个完成目标,比如目标恢复时间与目标解决时间,将这些都详细地一一约定出来,这就形成了受理服务效率要求。这三个部分是有机的整体,也是确保受理服务能够贴近用户需求的必要保障。

1.受理服务分类标准
对于用户提出的各类请求,即故障、服务、咨询及变更等请求(统称为“受理服务事件”),我们将对其提供的服务称为受理服务,依据服务提供商在有限资源下,如何最大限度地满足用户需求、提升用户满意度,我们将受理服务按重要性来进行划分,重要性主要依据于两个维度——紧急度与影响度——来判断,详见图3.2。按照受理服务的重要性可以将服务划分为若干级(企业可根据自身实际情况划分等级,推荐为7级),不同级别的受理服务处理的流程与方式也有所不同,因此分类的情况应先取得用户的认可。


2

2.受理服务处理规范
受理服务处理规范包括响应时间要求、电话作业规范、事件处理流程三部分,其中:响应时间要求是针对用户拨入电话的响应速度,将用户的等待时间限定在一定范围内;电话作业规范主要约定了电话用语,以使用户感到整个受理服务过程是热情、专业、规范的;事件处理流程规定了事件从受理开始到受理结束应经历的过程,以确保每一事件的服务质量。

3.受理服务效率要求
受理服务的效率要求包括目标恢复时间要求与目标解决时间要求,依据受理服务分类与事件类型确定了每一类、每一级事件的目标恢复时间与目标解决时间。

能够做好受理服务的IT服务者通常是在平时注意积累与IT运维服务相关知识并且学以致用的人,所以他们在遇到IT故障时可以从容不迫地解决系统的故障,同时还能处理好用户的情绪。

3.3.3 服务的平衡
好的IT运维服务能为IT系统提供全方位的维护保养,IT运维专家能够把IT技术和IT服务当作一个有机的整体,为IT系统安全、高效、平稳的运作而保驾护航。我们将IT运维服务比作保健医生,那么保健医生既要能够“治未病”,也能够“治已病”。在运维服务工作中,主动服务相当于为IT系统“治未病”,受理服务相当于为IT系统“治已病”。这两项服务工作都要做,并且要做好!那么主动服务和受理服务在实际工作中的占比应该是多少呢?这需要根据每个企业的实际情况和用户对IT系统维护的需求而定。

在现实情况中,我们遇到很多主动服务和受理服务占比不合理的例子。比如当企业的IT系统处在建设期刚结束、运维期刚开始之际,运维人员没有提前在系统建设期做好准备,没有及时介入到系统运行的保障当中,那么就容易出现手忙脚乱的局面,疲于应付受理服务而无暇顾及主动服务。要避免这样的情况发生,最好在系统规划时期对IT系统的运维需求进行调研,并对IT系统的运维指标进行预先规划。规划的主要内容包括运维服务工作量的测算,运维服务中涉及的运维范围,运维服务中涉及的各子系统的技术资料,以及运维期预测产生的资源需求等。一旦在系统规划期对运维服务进行了同期规划,那么在系统建设期能够及时考虑运维服务的具体需求必然顺理成章。当系统建设期进入后期,运维服务团队及时介入到建设期的收尾工作中,将有利于IT系统平稳顺畅地过渡到运维服务期。由于提前介入,运维服务团队可以有效地开展主动服务工作,切实起到为系统保驾护航的积极作用。进入运维期,按照主动服务的工作内容(主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等)与用户进行沟通确定当期重点需要执行的主动服务项目,将主动服务工作落实到位。

主动服务虽然能够最大限度地防患未然,但不能保证系统不出现意外的故障。比如,系统设备由于使用年限的问题,出现自然老化的现象,系统设备因此产生故障,这就需要我们在受理服务工作上提供必要的保障,确保故障出现时能够快速响应用户需求,及时恢复服务。因此受理服务的工作量和工作质量也是衡量运维服务是否达到优良的重要指标。因为主动服务和受理服务的平衡是用户满意不可或缺的两项工作。这就好比武侠小说中的双剑合璧,所向披靡,如图3.3所示。


3

相关文章
|
14天前
|
人工智能 运维 Linux
AI驱动的操作系统服务体验:大模型时代的运维革新
AI驱动的操作系统服务体验:大模型时代的运维革新
28 5
|
2月前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
57 0
|
2月前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
291 4
|
2月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
60 4
|
2月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
71 4
|
3月前
|
运维 监控 安全
自动化运维的利剑:Ansible在现代IT架构中的应用
在数字化浪潮中,企业对IT系统的敏捷性和可靠性要求日益提高。Ansible,一种简单但强大的自动化运维工具,正成为现代IT架构中不可或缺的一部分。它通过声明式编程语言YAM,简化了系统配置、应用部署和任务自动化的过程,显著提升了运维效率和准确性。本文将深入探讨Ansible的核心特性、应用场景以及如何有效整合进现有IT环境,为读者揭示其在自动化运维中的实用价值和未来发展潜力。
|
3月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索####
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。 ####
|
3月前
|
数据采集 机器学习/深度学习 运维
智能运维在IT服务管理中的实践与挑战####
本文深入探讨了智能运维(AIOps)在现代IT服务管理中的应用,通过分析其如何提升效率、预测故障并优化资源分配,阐述了智能运维的实施策略与面临的主要挑战。不同于传统摘要,本部分旨在直接概述文章的核心观点与结论,为读者提供快速了解全文主旨的窗口。
|
3月前
|
机器学习/深度学习 人工智能 运维
智能运维:AI驱动的IT运维革命###
【10月更文挑战第21天】 随着数字化转型的深入,智能运维(AIOps)正逐步成为企业IT管理的核心。本文将探讨AI技术如何赋能运维领域,通过自动化、智能化手段提升系统稳定性和效率,降低运营成本,并分享实施智能运维的最佳实践与挑战应对策略。 ###
256 1

热门文章

最新文章