《IT运维之道》一3.3 掌握服务平衡

简介:

本节书摘来异步社区《IT运维之道》一书中的第3章,第3.3节,作者: 李鹏 责编: 张涛,更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.3 掌握服务平衡

IT运维的第一件要事是按照IT运维服务的原则做事,第二件要事就是将这些原则应用到IT运维服务工作当中。IT运维服务工作从服务的发起方来看可以分为主动服务和受理服务。

我们曾将IT运维专家比作IT系统的保健医生,保健医生最重要的能力是“治未病”的能力。在我国关于“治未病”最著名的故事是扁鹊见蔡桓公的故事。有一天,扁鹊进见蔡桓公,在蔡桓公面前站一会儿,说道:“您的皮肤纹理间有点小病,不医治恐怕要加重。”蔡桓公说:“我没有病。”扁鹊离开后,蔡桓公说:“医生喜欢给没病的人治‘病’,以此作为自己的功劳。”过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肌肉和肌肤之间,再不医治,会更加严重的。”蔡桓公不理睬,扁鹊走后,蔡桓公又不高兴。过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肠胃,再不医治,会更加严重的。”蔡桓公还是不理睬。扁鹊走后,蔡桓公又很不高兴。又过了十天,扁鹊再进见时远远看了蔡桓公一眼,转身就跑。蔡桓公特意派人去问他为什么跑,扁鹊说:“皮肤纹理间的病,是烫熨的能力所能达到的;肌肉和肌肤之间的病,是针石的能力所能达到的;肠胃的病,是药剂的能力所能达到的;病到了骨髓里,那是管辖命的神的事情了,医生是没有办法的。蔡桓公的病现在已到了骨髓,因此我就不再请求给他治病了。”过了五天,蔡桓公身体疼痛,派人去寻找扁鹊,扁鹊已经逃到秦国去了。蔡桓公后来就不治而亡了。

“治未病”的概念最早出现于《黄帝内经 》,在《素问·四气调神大论》中提出:“是故圣人不治已病治未病,不治已乱治未乱,此之谓也。夫病已成而后药之,乱已成而后治之,譬犹渴而穿井,斗而铸锥,不亦晚乎!”对于IT运维服务而言“治未病”就是主动服务,“治已病”就是受理服务。

3.3.1 主动服务
主动服务是服务者主动为用户提供一系列运维服务,其目的是为系统提供防患于未然的维护保养服务,使得系统长期处于一个健康稳定的状态。主动服务是确保信息化系统安全、高效、平稳运作的有效手段。主动服务还可以让用户获得更好的服务体验,更好地了解系统的运行状况和未来需要配备的备机及备件资源等,从而使用户对服务者产生信赖感。主动服务的形式包括:向用户提供服务计划、对IT系统定期巡检、设计必要的应急预案等。主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等。主动服务完成的效果可以从策略制定、计划实施、服务评价三个方面进行评价。

能够做好主动服务的IT服务者通常是条理性好、目的性强、对IT系统的各子系统了解比较清晰的人。他们会用心地研究IT服务的内容,编制好系统定期养护的计划。

3.3.2 受理服务
受理服务是用户在发生故障时向运维服务者提出服务需求并获得运维服务的过程,其目的是在信息化系统意外发生故障时得到快速有效的解决,从而减小对业务的影响。受理服务包括受理各类用户电话请求(故障请求、服务请求、咨询请求等)、远程请求和现场服务请求。受理服务标准包含三方面:受理服务分类标准、受理服务处理规范、受理服务效率要求。这些工作将由服务提供商和用户共同确认,双方彼此都接受与认可,作为日后执行受理服务的目标与要求。

服务提供商的资源是有限的,而用户的需求依据不同的服务类型是有轻重缓急之分的,如何将有限的资源分配给不同类型事件,需要对事件依据一定的策略进行分级,这就形成了受理服务分类标准。在分类标准的基础上,针对不同类型的事件应有相应的处理规范与子流程,以确保资源得到合理分配,这就形成了受理服务处理规范。而每一事件的处理都有一个完成目标,比如目标恢复时间与目标解决时间,将这些都详细地一一约定出来,这就形成了受理服务效率要求。这三个部分是有机的整体,也是确保受理服务能够贴近用户需求的必要保障。

1.受理服务分类标准
对于用户提出的各类请求,即故障、服务、咨询及变更等请求(统称为“受理服务事件”),我们将对其提供的服务称为受理服务,依据服务提供商在有限资源下,如何最大限度地满足用户需求、提升用户满意度,我们将受理服务按重要性来进行划分,重要性主要依据于两个维度——紧急度与影响度——来判断,详见图3.2。按照受理服务的重要性可以将服务划分为若干级(企业可根据自身实际情况划分等级,推荐为7级),不同级别的受理服务处理的流程与方式也有所不同,因此分类的情况应先取得用户的认可。


2

2.受理服务处理规范
受理服务处理规范包括响应时间要求、电话作业规范、事件处理流程三部分,其中:响应时间要求是针对用户拨入电话的响应速度,将用户的等待时间限定在一定范围内;电话作业规范主要约定了电话用语,以使用户感到整个受理服务过程是热情、专业、规范的;事件处理流程规定了事件从受理开始到受理结束应经历的过程,以确保每一事件的服务质量。

3.受理服务效率要求
受理服务的效率要求包括目标恢复时间要求与目标解决时间要求,依据受理服务分类与事件类型确定了每一类、每一级事件的目标恢复时间与目标解决时间。

能够做好受理服务的IT服务者通常是在平时注意积累与IT运维服务相关知识并且学以致用的人,所以他们在遇到IT故障时可以从容不迫地解决系统的故障,同时还能处理好用户的情绪。

3.3.3 服务的平衡
好的IT运维服务能为IT系统提供全方位的维护保养,IT运维专家能够把IT技术和IT服务当作一个有机的整体,为IT系统安全、高效、平稳的运作而保驾护航。我们将IT运维服务比作保健医生,那么保健医生既要能够“治未病”,也能够“治已病”。在运维服务工作中,主动服务相当于为IT系统“治未病”,受理服务相当于为IT系统“治已病”。这两项服务工作都要做,并且要做好!那么主动服务和受理服务在实际工作中的占比应该是多少呢?这需要根据每个企业的实际情况和用户对IT系统维护的需求而定。

在现实情况中,我们遇到很多主动服务和受理服务占比不合理的例子。比如当企业的IT系统处在建设期刚结束、运维期刚开始之际,运维人员没有提前在系统建设期做好准备,没有及时介入到系统运行的保障当中,那么就容易出现手忙脚乱的局面,疲于应付受理服务而无暇顾及主动服务。要避免这样的情况发生,最好在系统规划时期对IT系统的运维需求进行调研,并对IT系统的运维指标进行预先规划。规划的主要内容包括运维服务工作量的测算,运维服务中涉及的运维范围,运维服务中涉及的各子系统的技术资料,以及运维期预测产生的资源需求等。一旦在系统规划期对运维服务进行了同期规划,那么在系统建设期能够及时考虑运维服务的具体需求必然顺理成章。当系统建设期进入后期,运维服务团队及时介入到建设期的收尾工作中,将有利于IT系统平稳顺畅地过渡到运维服务期。由于提前介入,运维服务团队可以有效地开展主动服务工作,切实起到为系统保驾护航的积极作用。进入运维期,按照主动服务的工作内容(主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等)与用户进行沟通确定当期重点需要执行的主动服务项目,将主动服务工作落实到位。

主动服务虽然能够最大限度地防患未然,但不能保证系统不出现意外的故障。比如,系统设备由于使用年限的问题,出现自然老化的现象,系统设备因此产生故障,这就需要我们在受理服务工作上提供必要的保障,确保故障出现时能够快速响应用户需求,及时恢复服务。因此受理服务的工作量和工作质量也是衡量运维服务是否达到优良的重要指标。因为主动服务和受理服务的平衡是用户满意不可或缺的两项工作。这就好比武侠小说中的双剑合璧,所向披靡,如图3.3所示。


3

相关文章
|
17天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
42 2
|
28天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
47 4
|
11天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
7天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
21天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
20天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
1月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
13天前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
37 0
|
13天前
|
机器学习/深度学习 边缘计算 运维
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
26 0
|
1月前
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。