科技云报道:云原生时代,IT运维视角为何要转向可观测性?

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 监控技术和工具革新迫在眉睫

科技云报道原创。

云原生时代,可观测性变成了基础设施级的诉求。

 

 

随着微服务、容器化的兴起,云原生带来的应用复杂度呈指数级上升,这种复杂度增加了系统状态可视化的难度,企业对于系统可观测能力提出了更高的要求。

2018年,“可观测性”正式走向前台,用于描述云原生环境下服务的状态变量,加之包括谷歌在内的众多大厂一拥而上,很快成为云原生技术领域最热门话题之一。

 

监控技术和工具革新迫在眉睫

“可观测性”一词诞生于几十年前的控制理论。在许多实际问题中,控制系统的状态变量不是由直接测量得到的,而是通过某种观测方法得到的,由某种观测系统所得到的结果能否真实反映系统的状态就是控制系统的可观测性。

可观测性可以完全反映系统状态的特性,就像汽车方向盘下的各项仪表盘一样,实时动态告诉我们车辆的时速、耗油、灯光、暖风等状态特征。

进入云原生时代,应用的构建部署与运行时基础设施都发生翻天覆地的变化,比如技术架构微服务化、运行时环境容器化、业务系统依赖关系复杂化,运行实例生命周期短等等,监控也随着进行实时动态调整,传统预先配置再监控的方式已经无法满足云原生的场景。

因此,云原生可观测性是指,从传统软件监控及数据分析可视化工具中,总结出在云原生领域中,从底层容器基础设施、通用技术组件到业务应用系统全链路监控运维、运营治理等产品化体系化的能力诉求,确切的体现了云原生的核心理念。相比监控更多偏向自动化工具,可以替代人自动监控系统异常,云原生可观测性不仅包含传统监控的能力,更多的是面向业务,强调将业务全过程透明化的理念。

 

 

为可观测注入All in ONE思想

在云原生时代,可观测领域是一个大有可为的市场。Gartner预测,到2024年,将有30%的企业会通过可观测技术来提升数字化业务的运行性能,相比2020年的10%提升了3倍。

2023年,全球可观测市场规模预计将达到164.94亿美元。“可观测市场不断增长,带来的不仅是机遇,同样也带来了更多挑战。企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察云、网、边、端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。这不只是工具或技术的选型,更是一种理念。”博睿数据CTO孟曦东指出。

随着云原生架构的演进,可观测的边界与分工被重新定义,传统的容器、应用、业务分层监控边界被打破,Dev、Ops、Sec的分工逐渐模糊。业界开始意识到,IT系统作为一个有机的整体,对IT系统状态的监测与诊断也需要一体化的方案。因此,All in ONE思想逐渐成为主流,运维行业也随之发生了三个变化:

一是企业视角发生变化。以前企业更多关注系统运维层面机房建设、底层服务器的搭建、购买,现在基于云化基础设施,企业更注重业务搭建、业务体验优化以及业务运营。

二是运维职责发生变化。云化基础设施对企业而言是不可见、不可控的,因此需要往平台型、业务的方向转型,转向DevOps和SRE方向。

三是监控技术发生变化。云原生导致微服务和分布式趋势增强,使得现在系统很难运维,需要监控技术从“监控”走向“可观测”,构建起一套高效的排障体系。

对于运维行业的变化,博睿数据产品高级总监孙丽表示,云原生使企业从对底层系统资源的投入当中抽离出来,去更多关注上层应用、业务和用户。在这种情况下,业务发展就变成了企业最重要的问题。

 

 

正是基于这样的趋势,博睿数据在经过几年的摸索与实践后,正式推出了一体化智能可观测平台ONE,该平台旨在建立一体化、智能化、面向业务与用户体验的统一运维平台,助力企业提高数字化体验,为数字化转型赋能升级。此次博睿数据发布的ONE平台,可以说是国内第一个将所有运维监控需求“All in ONE”的统一平台。

ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升四个应用场景出发,帮助客户走出数据中心,打通云、管、边、端, 通过代码到客户的全数据链DNA采集能力,结合ONE平台的大数据及AI能力,实现传统的产品工具到平台+架构的转型,构建以用户为中心的新运维体系。

 

 

从产品定义看,“ONE”包含两个统一:统一运维监控技术栈、统一运维数据治理体系。ONE不仅满足了所有监控需求,即开即用、随时扩展的方式,也进一步降低运维管理门槛,提升了系统可观测性广度与深度。同时,面向业务与用户体验运维,囊括了系统的所有观测数据,进行统一管理,并提供丰富的集成扩展,解决因竖井式的监控带来的数据割裂、重复建设、可观测性差的问题。

为互联互通的统一运维平台,ONE全面打通业务和运维,并明确业务指标、转化率、客户留存率、客户流失率等,为运维人员提供指标丰富,降低运维管理门槛。相比很多独立的运维平台,ONE可以给运维管理带来怎样的新体验?

孙丽表示:“ONE平台集告警收敛、异常检测、根因定位、智能见解于一体,聚焦业务与用户体验的运维体系,帮助用户实现从孤立的工具到统一运维平台的建设要求,降低获客成本及协同难度,打造极致的平台体验。”

ONE的优势之一在于展现出较强的关联性,完整复刻出数字化系统的数字孪生,在保证全面可观测的同时,也能掌握监控实体间的关系及其属性信息,实现关联追踪,解决排障难、检索追查难等痛点,大大提升了排障效率,实现了系统之间的真正融合。

同时,ONE将AI能力与运维相结合,形成集信息、经验、智能决策融合的智能见解能力,能够基于AI和规则自动发现问题并给出根因,解决虚假问题扰乱运维、告警风暴、根因定位效率低的问题,助力运维人员快速排除故障,进而提高运维效率。

从应用角度来看,ONE更好地兼顾了行业性与通用性,对于企业更加友好。据孟曦东介绍,ONE将二次建设能力开放给行业客户,让客户自己去调用,也可以开放给生态合作伙伴进行调用,以此来满足不同场景、不同行业客户的需求。

通过做一些“样板间”,实现“开箱即用”通用能力,个性化需求则可以在ONE平台的产品能力进行二次设计,帮助行业客户实现逻辑分析以及不同场景的应用。

 

结语

随着ONE这样的一体化运维平台的出现,我们看到了可观测平台的一条发展路径:基于系统和服务观测的角度把不同数据在后端融合分析,而不是刻意强调系统支持可观测性数据的分别查询,在产品功能和交互逻辑上尽可能消除指标、跟踪、日志的割裂。通过一体化平台,企业能够建立完整可观测闭环,从事故前异常发现、事故中故障排查到事故后的主动预警监控,为业务提供持续监控、优化服务性能。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
20天前
|
边缘计算 运维 Cloud Native
浙江省科技进步奖一等奖!阿里云云原生技术实现新突破
科技成果鉴定委员会高度评价该技术,“项目研发难度大,成果创新性强,对促进关键技术进步及自主可控具有重大意义,成果在国内外开源社区产生了广泛影响,并成功应用于互联网、交通、金融、物流、医疗等多个行业。”
|
7天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
61 4
|
8天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
9天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
29 4
|
20天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用与挑战###
本文探讨了人工智能(AI)技术在IT运维领域的应用现状、具体实现方式及其面临的挑战。通过分析AI如何优化故障预测、自动化处理和资源管理,文章旨在揭示AI赋能下运维工作的变革潜力与实践难题,为读者提供对智能化运维趋势的深刻理解。 ###
|
20天前
|
运维 Prometheus 监控
运维自动化:提高IT效率的关键策略
在当今快速发展的IT领域,运维自动化已成为企业提升运营效率、降低错误率和成本的重要手段。随着云计算、大数据和人工智能技术的不断进步,实现运维流程的自动化不仅可行,而且变得日益重要。本文探讨了运维自动化的概念、关键技术及其在实际工作中的应用,旨在为IT专业人士提供一种高效管理和维护系统的方法。
|
19天前
|
机器学习/深度学习 人工智能 运维
智能运维:AI驱动的IT运维革命###
【10月更文挑战第21天】 随着数字化转型的深入,智能运维(AIOps)正逐步成为企业IT管理的核心。本文将探讨AI技术如何赋能运维领域,通过自动化、智能化手段提升系统稳定性和效率,降低运营成本,并分享实施智能运维的最佳实践与挑战应对策略。 ###
41 1
|
6天前
|
人工智能 运维 监控
自动化运维:提升IT效率的关键策略
在当今快速发展的信息技术时代,企业面临着不断增长的数据量和复杂的系统架构。为了保持竞争力,自动化运维成为提高IT部门效率和响应速度的关键策略。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,旨在为IT专业人员提供实现高效运维管理的实用指南。
19 0
|
6天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
24天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####