2022云栖精选—传音移动互联可观测体系设计与落地

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
EMR Serverless StarRocks,5000CU*H 48000GB*H
函数计算FC,每月15万CU 3个月
简介: 曹剑阿里云智能高级产品专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

image.png

传音控股作为“非洲手机之王”,IDC报告显示2021年占据非洲智能手机出货量47.9%传音移动互联广告平台作为传音控股的重要业务之一,是非洲最为主流营销平台之一。

在技术架构方面,传音控股通过SpringCloud进行全面微服务化。同时,使用数据库、中间件等众多PaaS服务应用运行在阿里云容器服务K8S之上,并分布在欧洲亚洲等多个 region 真正实现多 region 服务体系。对于套体系而言,要构建完整可观测体系,挑战非常大:

首先,观测对象非常多:

观测对象分布在不同技术栈、架构中要对于众多观测对象实现覆盖有所侧重,是非常大挑战。

其次,调用链路复杂:

由于已经使用微服务,因此业务结构非常复杂,调用链路复杂,出现问题难以排查

最后,业务快速上线带来的运维工作量:

新业务上线频率极快,如果新上线服务无法自动化接入这一套可观测体系,会带来非常大的运维工作量。

image.png

要构建观测系统,首先要梳理出一套指标体系,进行分层设计,同时自上而下对指标体系进行关联。

其次,传音希望通过告警驱动整个运维流程,需要在IM即时通讯工具内完成事件闭环,包括告警收取认领处理分析、关闭全流程。

另外,传音的系统非常复杂,因此,传统登录到机器查看日志排查问题的方式无法实现,而是需要全链路追踪作为诊断主要手段。在情况下,整个观测系统必须与链路系统打通。同时,我们希望观测系统基于开源标准进行构建指标符合Prometheus格式 tracing 符合 OpenTelemetry标准,服务界面通过 Grafana 大盘进行统一呈现。

相比自建传音更倾向于使用阿里云上成熟云服务,因为云服务带来的全托管、免运维、稳定高效优势具有非常大的吸引力

基于以上业务目标与需求,我们开始进入可观测系统落地实施。

image.png

首先,进行指标体系梳理阿里云与可观测团队将所有指标进行拆解分层,分资源层、容器层、服务层以及应用层。资源层最主要关注节点上资源水位,包括 CPUmemory网络带宽等。容器层分为工作负载、控制面以及容器关键事件,对于产生关键指标和事件进行收归。服务层针对应用链路中涉及负载均衡SLB 云数据库 RedisMQ等可用性以及性能指标进行梳理。应用层主要针对应用健康度以及应用性能本身,包括黄金三指标运行JVM 性能等进行梳理。

image.png

基于以上指标体系,传音建立观测系统的过程中选择使用阿里云上Prometheus服务,与阿里云容器服务进行了天然集成,可以采集阿里云K8S 集群关键性能指标开箱即用。

容器服务运行应用指标也进行默认集成,将应用层黄金三指标等非常关键指标收归至Prometheus,同时基于Prometheus和云监控开箱即用的能力,将链路上关键云服务指标收归至Prometheus

结合阿里云Grafana服务 真正实现全局多维度大盘展现。比如,业务关键指标技术可观测大盘关键服务大盘及应用性能均基于 Grafana 呈现。同时数据源分布在欧洲亚洲多个 region 基于 Grafana 全球数据源加速能力,使国内同事也可以直接查看全球监控状况,真正实现一套观测产品全球使用。

image.png

得益于指标体系梳理,每一层关键指标已收归Prometheus服务。而且Prometheus服务提供开箱即用基于 PromQL告警规则,极大减轻了传音运维工作量

所有发出告警规则会被发送至阿里云上应用性能监控 ARMS 智能平台。基于智能告警平台的智能降噪智能分组压缩等能力,进一步解决传音此前告警风暴问题,使得告警更准确更高效。最终的告警会对接到传音常用飞书平台实现告警认领、告警追踪告警分析、关闭等完整流程

传音原先告警模式为告警至个人非常容易丢失。而如今转变告警至群,通过群体协作,同事之间互相协作互相提醒,更有利于告警及时处理

image.png

传音新上服务无法自动接入原先的链路追踪系统这会导致极大运维工作量,因此使用阿里云上应用监控服务进行替换。应用监控服务与容器服务有天然集成,可以针对于容器服务需要监控应用自动注入 Java 探针,将链路APM数据采集至阿里云上应用监控服务,同时指标也会收归至阿里云Prometheus真正实现从指标链路以及链路中关键报错日志完全关联。

同时ARMS应用监控也提供全局拓扑,可以查看整个服务关联情况调用情况。新服务上线可以非常方便地查看服务健康状况依赖等。发现问题节点之后,可以深入拉起全链路调用链追踪,并定位至代码级别

image.png

阿里云和传音一起构建该套可观测系统-- 覆盖资源层、容器层、 PaaS层、应用层全球多地域统一可观测系统。在实施过程中,我们基于阿里云Prometheus服务将云上应用层指标云服务指标K8S 监控指标收归至Prometheus

通过阿里云 ARMS 应用监控构建了全链路追踪系统同时基于阿里云 Grafana 提供可观测统一视图,再对接至后面ARMS 告警平台,最终对接至飞书群,真正实现了再告警群内实现协作闭环,真正实现 ChatOps运维新范式

后续,传音计划引入异常检测根因定位AIOps能力,进一步提效,提高问题诊断效率。同时会在用户侧加入用户体验监控能力,更好区分是用户侧问题还是数据中心问题。我们也会将可观测能力前置至开发态测试态,与 CI/CD 流程结合,与压测环境结合,更好保证应用服务交付质量。同时,我们也会探索基于可观测数据做FinOps做应用安全,更好地利用可观测数据,发挥业务价值。

最终,我们希望能够实现面向业务运维可观测系统。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
11月前
|
人工智能 供应链 Kubernetes
|
自然语言处理 运维 监控
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【上】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【上】
165 0
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、	基于OPLG从0到1构建统一可观测平台实践【上】
|
存储 机器学习/深度学习 安全
《云上社交行业技术服务白皮书》——第五章 展望
《云上社交行业技术服务白皮书》——第五章 展望
82 0
|
存储 SQL 运维
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——三、友邦人寿可观测体系设计与落地
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——三、友邦人寿可观测体系设计与落地
169 0
|
存储 数据采集 边缘计算
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、 基于OPLG从0到1构建统一可观测平台实践【下】
139 0
|
运维 Prometheus 监控
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【下】
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【下】
170 0
|
Prometheus 运维 监控
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】
188 0