阿里云容器服务ACK报警中心快速构建运维体系最佳实践

简介: 根据CNCF社区发布的年度统计,Kubernetes已经成为主流工业界的云原生基础设施平台。在Kubernetes上的真实业务环境,建立成熟稳定的运维体系至关重要,然而用户在“正值壮年”的Kubernetes生态中往往会遇到:容器监控体系复杂,学习成本高,监控报警配置碎片化严重;传统运维体系不能生搬套用;问题如何快速路由到正确的运维人员等等问题。本文介绍基于阿里云容器服务ACK报警中心如何快速构建成熟的运维体系,继承专业容器服务领域运维能力与经验沉淀。

根据CNCF社区发布的年度统计,Kubernetes已经成为主流工业界的云原生基础设施平台。在Kubernetes上的真实业务环境,建立成熟稳定的运维体系至关重要,然而用户在“正值壮年”的Kubernetes生态中往往会遇到:容器监控体系复杂,学习成本高,监控报警配置碎片化严重;传统运维体系不能生搬套用;问题如何快速路由到正确的运维人员等等问题。本文介绍基于阿里云容器服务ACK报警中心如何快速构建成熟的运维体系,继承专业容器服务领域运维能力与经验沉淀。

概述

背景介绍

据统计数据,全球高达96%的组织已经或正在评估使用Kubernetes,Kubernetes已经成为主流的生产级基础设施,上生产需要构建完善的运维体系。集群中承载的往往是用户真实的生产业务,集群稳定性的保证一方面靠阿里云容器服务为客户提供稳定可靠的Kubernetes集群本身,也依靠用户建立可靠稳定的运维体系。

阿里云容器服务ACK报警中心为客户提供快速构建运维体系的能力,开箱即用,即刻享受专业团队带来的容器领域运维经验沉淀,大大缩短ACK用户业务的MTTR(平均故障恢复时长)。

本文介绍如何依赖ACK报警中心快速构建成熟的运维体系。

目标读者

面向ACK集群的用户,集群管理员,运维稳定性管理员等。

适用场景

适用于保障用户在ACK集群上部署业务系统的系统稳定性,包括业务的应用稳定性以及集群平台的稳定性。

相关概念

Kubernetes:生产级容器编排,简称K8s。

容器服务 ACK:阿里云容器服务Kubernetes版,提供高性能可伸缩的容器应用管理服务,支持企业级Kubernetes容器化应用的生命周期管理。

ACK报警中心:阿里云容器服务ACK提供统一管理容器报警场景的功能,支持在创建集群时默认开启。帮助用户快速建立成熟的运维体系。

ACK报警中心功能介绍

ACK报警中心提供统一管理容器报警场景的功能,包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警。支持在创建集群时默认开启报警功能。容器服务的报警规则支持通过集群内部署CRD的方式配置管理。

专业的容器服务领域运维经验沉淀-成熟异常诊断体系

Kubernetes的先进性在此不用赘述。但带来巨大技术红利的同时,也带来新的问题:

  • 容器可观测体系复杂,监控方案、配置碎片化严重。

Kubernetes较传统基础设施体系,提供了容器、调度、弹性扩缩、编排等新概念,提供高性能可伸缩的容器应用管理,带来极大的云原生红利。但是引入容器层概念也同时带来了可观测体系的复杂性。建设可靠的可观测体系时,也会采用多个维度、多条数据链路。阿里云容器服务ACK也提供了全面成熟可靠的可观测体系,同时也带来了监控、报警配置碎片化严重的问题,要想全面对集群与应用设置报警规则,往往需要辗转多个监控系统,极大增加了运维管理成本。ACK报警中心提供统一管理容器报警场景的功能,屏蔽认知、配置复杂门槛,减少监控配置的碎片化问题。

  • 从传统体系迁移至云原生体系的迁移复杂性。

很多Kubernetes的客户都是从稳定的传统部署模式迁移而来,原本这些客户都通过多年的运维经验沉淀,建立了自己的运维体系。迁移到Kubernetes后,由于应用部署结构、容器弹性等特性的引入,运维体系需要重建。这种迁移场景往往给Kubernetes经验不足使用者带来巨大的复杂性。ACK报警中心提供的默认报警规则集,提供容器服务成熟的异常诊断体系,开箱即用,且提供白屏化管理操作,简单易用,减少从传统体系迁移至云原生体系的迁移复杂性。

  • 运维体系的复杂性。

成熟的运维体系建立需要基础设施层深厚的运维、异常诊断经验。ACK报警中心默认提供报警规则,囊括集群稳定性、资源容量评估、应用稳定性的异常诊断经验,由ACK生态团队经过真实客户生产场景沉淀、打磨后梳理而来。容器服务异常、通知报警体系可参考下图。

容器服务报警体系概览

开启ACK报警中心默认报警规则,即可享受专业的容器服务领域运维经验沉淀,帮助用户开箱即用建立成熟容器服务运维体系。

问题得问对的人-快速搭建ITSM体系

成熟高效的运维体系如同送病人去医院,第一步需要有经验的大夫,有能力诊断出问题,在我们场景中就对应上一节成熟的异常诊断体系,第二步需要马上把病人送到正确的科室进行针对性处理,对应我们建立运维体系的场景中,属于建立ITSM(企业服务治理)领域,简而言之需要把遇到的问题路由通知到正确处理此问题的人员。

阿里云容器服务ACK报警中心支持用户通过不同的联系人分组来定义用户角色,不同类型的异常可由不同联系人分组订阅处理。

image.png

容器服务报警配置功能集合容器场景的监控报警能力,提供报警的统一配置管理,有如下几个典型的使用场景:

  • 集群管理员可以通过监控报警第一时间了解集群管控、存储、网络、弹性扩缩容等异常事件。例如:集群资源异常、集群存储异常、集群网络异常等。

  • 应用管理员可以通过监控报警第一时间了解在集群中运行应用的异常事件、指标是否异常。例如,集群容器副本异常或者应用Deployment的CPU、内存水位指标是否超过阈值等。可通过开启报警配置功能中的默认报警规则模板,即可快速接受集群内应用容器副本的异常事件报警通知。例如,通过配置并订阅关注集群容器副本异常报警规则集感知所属应用的Pod是否异常。

  • 安全管理员可以通过监控报警感知集群中存在的安全漏洞,从而快速采取修复优化措施,提升安全稳定性,减小安全风险。

  • IT管理团队关注运行在集群上的应用健康、容量规划、集群运行稳定性及异常甚至是错误报警等贯穿应用生命周期的一系列问题。例如,通过配置并订阅关注集群重要事件报警规则集感知集群内所有Warning、Error等异常报警;关注集群资源异常报警规则集感知集群的资源情况,从而更好地做容量规划等。

多套环境难迁移怎么办-使用云原生配置方式

当用户有多个集群需要管理,为集群配置报警规则往往会是一个重复繁琐且难以同步的操作。容器服务报警配置功能,支持通过集群内部署CRD配置的方式管理报警规则。可通过维护多个集群中同样配置的CRD资源,来方便快捷地实现多集群中报警规则的同步配置。

apiVersion: alert.alibabacloud.com/v1beta1
kind: AckAlertRule
metadata:
  name: default
spec:
  groups:
    #以下是一个集群事件报警规则配置样例。
    - name: pod-exceptions                             #报警规则分组名,对应报警模板中的Group_Name字段。
      rules:
        - name: pod-oom                                #报警规则名。
          type: event                                  #报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
          expression: sls.app.ack.pod.oom              #报警规则表达式,当规则类型为event时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
          enable: enable                               #报警规则开启状态,枚举值为enable、disable。
        - name: pod-failed
          type: event
          expression: sls.app.ack.pod.failed
          enable: enable

如以上报警规则CRD配置,用户可使用同样的报警规则CRD配置,并设置规则的订阅联系人分组,可快速在不同集群中进行报警规则的定义,以及联系人分组的配置,具体参考如何通过CRD配置报警规则

如何快速接入

前提条件

容器服务报警功能需要:

  • 集群异常事件报警,此类报警的数据链路同步自容器服务事件中心。更多信息,请参见事件监控

  • 集群相关基础资源的关键指标报警,此类报警的数据链路同步自云监控基础资源监控。更多信息,请参见基础资源监控

功能使用步骤

功能开通步骤:

  • 方法1:购买创建集群时,在第三步组件配置中,保持默认勾选使用默认报警模板配置报警,并选择报警通知联系人分组。

  • 方法2:若购买集群时未开启,可手动开启。

    1. 在目标集群左侧导航栏选择运维管理 > 报警配置配置管理,根据提示安装组件。

    2. 在报警规则管理页签,打开启动状态可开启对应报警规则集。

    3. 点击 编辑通知对象 为报警规则集设置通知联系人分组。

验证方法

场景1建立不同身份的联系人组,订阅不同分组的报警规则

在容器服务控制台,集群页面中,左侧 运维管理 > 报警配置 页面中,右上角联系人管理、联系人分组管理中:

  1. 建立应用管理员1、集群管理员1 两个联系人,以及两个联系人分组:集群管理员组1(包含联系人集群管理员1)、应用管理员组1(包含联系人应用管理员1)。

    p401246p401247
  2. 在上方报警规则管理 页面中。

  3. 为Warn事件集、集群节点异常报警规则集,编辑通知对象 > 集群管理员组。

  4. 为集群容器副本异常报警规则集,编辑通知对象 > 应用管理员组。

场景2接收报警效果,如容器Pod镜像拉取失败

部署一个镜像会拉取失败的应用 (镜像是错误地址,无法拉取镜像):

在集群页面,工作负载 > 无状态中,右侧使用YAML创建资源

(选取示例模板中,Resource - basic Deployment模板,并修改一下image为错误image,完整YAML如下):

apiVersion: apps/v1
kind: Deployment
metadata:
  name: fake-image-demo-nginx
  labels:
    app: nginx
spec:
  replicas: 2
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        # this is a fake image which will trigger image pull failed.
        image: fake-image-not-exist
        ports:
        - containerPort: 80
        resources:
          limits:
            cpu: "500m"

稍等1~3分钟,查看报警历史,即可看到此应用的ImagePullBackOff报警历史,同时订阅的联系人组即可收到报警:

常见问题

由于无订阅的联系人组导致报警规则同步失败

问题现象:

当报警中心中报警规则同步状态出现如下情况:

报错信息为类似信息:this rule have no xxx contact groups reference。

问题原因:

报警规则无订阅的联系人组。

解决方案:

  1. 已创建联系人,并将联系人加入联系人分组中。

  2. 在对应报警规则集右侧单击编辑通知对象,为该组报警规则配置订阅的联系人分组。​

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
16天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
20天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
25天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
17天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
1月前
|
监控 NoSQL 时序数据库
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
262 77
|
11天前
|
Ubuntu NoSQL Linux
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
81 6
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
|
1月前
|
监控 Docker 容器
在Docker容器中运行打包好的应用程序
在Docker容器中运行打包好的应用程序
|
21天前
|
Ubuntu Linux 开发工具
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈
Docker 是一个开源的容器化平台,允许开发者将应用程序及其依赖项打包成标准化单元(容器),确保在任何支持 Docker 的操作系统上一致运行。容器共享主机内核,提供轻量级、高效的执行环境。本文介绍如何在 Ubuntu 上安装 Docker,并通过简单步骤验证安装成功。后续文章将探讨使用 Docker 部署开源项目。优雅草央千澈 源、安装 Docker 包、验证安装 - 适用场景:开发、测试、生产环境 通过以上步骤,您可以在 Ubuntu 系统上成功安装并运行 Docker,为后续的应用部署打下基础。
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈
|
11天前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
68 11
|
27天前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
131 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档