[12.15 workshop] 云原生可观测体系最佳实践-实践手册

本文涉及的产品
可观测链路 OpenTelemetry 版,每月50GB免费额度
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 云原生可观测体系较传统IT体系更复杂,如何在云原生生态下快速建立可靠的可观测能力是运维体系建设的重要环节。本文一步步介绍如何使用阿里云容器服务生态的可观测云产品,开箱即用建立容器场景可观测能力体系。

1. 背景简介


本次最佳实践覆盖以下几个可观测能力功能:

  • 容器服务事件中心
  • 容器服务报警中心
  • 阿里云Prometheus
  • JAVA应用性能监控 (ARMS应用监控)
  • Kubernetes监控
  • 容器服务日志监控 (optional)
  • 容器服务Ingress Dashboard (optional)
  • ARMS 前端监控 (optional)


optional部分,不在本次workshop中展示,作为课后作业,可自行参考文档实践。

2. 前提条件

本文假设您的 ACK 集群已经创建完成。

子账号权限设置

若您使用的子账号进行本次实践,请为您的子账号添加相关权限:

使用主账号为子账号授权,进入RAM权限管理控制台 (ram.console.aliyun.com)。

在左侧 用户 页面中找到对应的子账号,右侧添加权限。

image.png

为此子账号添加权限:

AliyunCSFullAccess (管理容器服务(CS)的权限)

AliyunLogFullAccess (管理日志服务(Log)的权限)

AliyunARMSFullAccess (管理业务实时监控服务(ARMS)的权限)

AliyunCloudMonitorFullAccess (管理云监控 (CloudMonitor)的权限)

image.png


主账号为子账号授权集群的资源管理权限 (RBAC)权限:

在容器服务控制台 (cs.console.aliyun.com) 首页,左侧 授权管理,为对应子账号授予集群的管理员权限。

image.png

image.png

2.1 容器服务事件中心

功能官方文档 (https://help.aliyun.com/document_detail/125679.html

功能开通步骤:

  • 方法1. 购买创建集群时,在第三步 组件配置中,保持默认勾选 安装node-problem-detector并创建事件中心

  • 方法2.  若购买集群时未开启,可手动开启。
  • 可在容器服务控制台,集群页面,左侧 运维管理 -》 组件管理中安装 ack-node-problem-detector组件,从而手动开启事件中心。


2.2 容器服务报警中心

功能官方文档 (https://help.aliyun.com/document_detail/207725.html

功能开通步骤:

  • 方法1.  购买创建集群时,在第三步 组件配置中,保持默认勾选 使用默认报警模板配置报警,并选择报警通知联系人分组。

  • 方法2. 若购买集群时未开启,可手动开启。
  • 在目标集群左侧导航栏选择运维管理 > 报警配置配置管理,根据提示安装组件。
  • 在报警规则管理页签,打开启动状态可开启对应报警规则集。
  • 点击 编辑通知对象 为报警规则集设置通知联系人分组。


2.3 阿里云Prometheus

功能官方文档 (https://help.aliyun.com/document_detail/161304.html

功能开通步骤:

  • 方法1. 购买创建集群时,在第三步 组件配置中,保持默认勾选 使用Prometheus监控服务

  • 方法2. 若购买集群时未开启,可手动开启。
  • 在集群管理左侧导航栏中,选择运维管理 > Prometheus监控。
  • 在Prometheus监控页面中间,单击开始安装。


2.4 JAVA应用监控 (ARMS应用监控)

功能官方文档 (https://help.aliyun.com/document_detail/125726.html

功能开通步骤:

  • 安装arms-pilot组件
  • 在ACK控制台,集群页面,左侧 应用-》 Helm中,创建 ack-arms-pilot组件

  • (optional)专有版集群需要手动授权,托管集群可自动在安装流程中进行页面授权,如何手动授权请参考文档。
  • 在用户的Workload Yaml中打上开启应用监控功能的Annotation
  • 以下annotations添加到spec / template / metadata层级下
annotations:  armsPilotAutoEnable: "on"  armsPilotCreateAppName: "<your-deployment-name>"


  • 注意需要先安装arms-pilot组件,再启动你的应用pod,若启动应用pod顺序在前,需要重启pod,有以下两种方法触发重启Pod:
  • 可以缩容deployments的replica到0,然后再扩容replica恢复正常,即可实现重启。
  • 或可以删除你的应用的pod,即可实现重启。

(本次实践中,安装arms-pilot组件后,请对无状态应用 spring-cloud-a,进行重启Pod操作,从而开启ARMS应用监控。)

2.5 Kubernetes监控

功能官方文档 (https://help.aliyun.com/document_detail/251852.html

功能开通步骤:

  • 本功能依赖 阿里云Prometheus,需先开通阿里云Prometheus
  • 在容器服务控制台,集群页面,左侧 应用-》Helm中,安装 ack-arms-cmonitor组件


2.6 容器日志监控 (Optional)

此部分为课后作业,可自行参考文档实践。

功能官方文档 (https://help.aliyun.com/document_detail/86548.html

2.7 Ingress Dashboard (Optional)

此部分为课后作业,可自行参考文档实践。

功能官方文档 (https://help.aliyun.com/document_detail/195702.html

2.8 ARMS前端监控 (Optional)

此部分为课后作业,可自行参考文档实践。

功能官方文档 (https://help.aliyun.com/document_detail/106086.html

3. 操作步骤

3.1 容器服务事件中心

打开容器服务控制台,集群页面中,左侧 运维管理 -》 事件中心,右侧事件总览页面

3.1.1 场景1. 集群事件总览

在上方Tab选择 集群总览 事件,

在右上角的时间范围内,查看事件总数,集群异常事件总数,重要异常是否近期发生。

3.1.2 场景2. 集群核心组件事件

在上方Tab选择 核心组件事件,查看集群核心组件的异常、重要事件。

3.2 容器服务报警中心

3.2.1 场景1. 建立不同身份的联系人组,订阅不同分组的报警规则

在容器服务控制台,集群页面中,左侧 运维管理 -》 报警配置页面中,右上角联系人管理、联系人分组管理中:

  • 建立应用管理员1、集群管理员1 两个联系人,以及两个联系人分组:集群管理员组1(包含联系人 集群管理员1)、应用管理员组1(包含联系人 应用管理员1)。

  • 在上方 报警规则管理 页面中
  • 为Warn事件集、集群节点异常报警规则集,编辑通知对象 -》集群管理员组
  • 为集群容器副本异常报警规则集,编辑通知对象 -》 应用管理员组

3.2.2 场景2. 接收报警效果,如容器Pod镜像拉取失败

部署一个镜像会拉取失败的应用 (镜像是错误地址,无法拉取镜像):

在集群页面,工作负载 -》 无状态中,右侧使用YAML创建资源

(选取示例模板中,Resource - basic Deployment模板,并修改一下image为错误image,完整yaml如下):

apiVersion: apps/v1 # for versions before 1.8.0 use apps/v1beta1kind: Deployment
metadata:  name: nginx-deployment-basic
  labels:    app: nginx
spec:  replicas: 2  selector:    matchLabels:      app: nginx
  template:    metadata:      labels:        app: nginx
    spec:#  nodeSelector:#    env: test-team      containers:      - name: nginx
# image: nginx:1.7.9 # replace it with your exactly <image_name:tags>        image: fake-image-not-exist
        ports:        - containerPort: 80        resources:          limits:            cpu: "500m"



稍等1~3分钟,查看报警历史,即可看到此应用的ImagePullBackOff报警历史,同时订阅的联系人组即可收到报警:


3.3 阿里云Prometheus

进入容器服务集群页面,左侧 运维管理 -》 Prometheus监控页面,即可查看集群、应用指标监控数据。

3.3.1 场景1. 查看集群核心组件监控指标

上方大盘列表中,可查看集群核心组件:ApiServer、ETCD、Scheduler、CoreDNS等核心指标。


3.3.2 场景2. 查看Workload、Pod等应用的监控指标

上方大盘列表中,可查看应用Workload(如Deployment)、Pod监控大盘。


可通过查看Deployment大盘、Pod大盘,查看应用: namespace=default,deployment=spring-cloud-a的应用黄金指标(CPU、Memory、NetworkIO),以及Deployment的副本数(Replica)、资源占用(Request)与限制(Limit)等核心指标。


3.3.3 场景3. 通过 Pod TopN、Node TopN找到集群中的资源最大消耗应用

上方大盘列表中,可查看 Pod TopN、Node TopN大盘,分析整个集群中资源消耗最高的Pod。


3.4 JAVA应用监控(ARMS应用监控)


部署测试应用

(参考【基于阿里云微服务引擎 MSE 的全链路灰度实践】https://developer.aliyun.com/article/830851#slide-3

部署Demo应用程序,已部署可跳过部署应用这一步。


其中 spring-cloud-a 应用已经开启了ARMS应用监控,此应用的Deployment Yaml如下:

(已部署Demo应用即可跳过此步骤,若未部署请重新在集群中Apply下面应用Yaml)

# A 应用 base 版本,开启按照机器纬度全链路透传---apiVersion: apps/v1
kind: Deployment
metadata:  labels:    app: spring-cloud-a
  name: spring-cloud-a
spec:  replicas: 2  selector:    matchLabels:      app: spring-cloud-a
  template:    metadata:      annotations:        msePilotCreateAppName: spring-cloud-a
        ahasPilotAutoEnable: "on"        ahasAppName: spring-cloud-a
        armsPilotAutoEnable: "on"        armsPilotCreateAppName: spring-cloud-a
        alibabacloud.com/burst-resource: eci
        k8s.aliyun.com/eci-use-specs: 4-8Gi
      labels:        app: spring-cloud-a
    spec:      containers:      - env:        - name: LANG
          value: C.UTF-8
        - name: JAVA_HOME
          value: /usr/lib/jvm/java-1.8-openjdk/jre
        - name: profiler.micro.service.tag.trace.enable
          value: "true"        image: registry-vpc.cn-beijing.aliyuncs.com/wangtao-mse/spring-cloud-a:0.1-SNAPSHOT
        imagePullPolicy: Always
        name: spring-cloud-a
        ports:        - containerPort: 20001          protocol: TCP
        resources:          requests:            cpu: '4'            memory: 8Gi
        livenessProbe:          tcpSocket:            port: 20001          initialDelaySeconds: 10          periodSeconds: 30


确保2.4节所述,安装arms-pilot组件后需重启spring-cloud-a应用的Pod。(删除无状态应用 spring-cloud-a 下的所有Pod即可完成重启。)


在容器服务控制台,集群页面,工作负载 -》 无状态中,找到此应用 spring-cloud-a,即可在右侧看到已经开启ARMS应用监控,并可link到对应应用监控页面。


(若应用监控数据因欠费等情况出现停止,可在ARMS应用监控控制台开启应用)

3.4.1 场景1. 通过ARMS应用监控实现Java应用的全链路追踪

在容器服务集群控制台,无状态找到对应应用,右侧跳转到 ARMS应用监控 中:

分别查看:应用总览、应用详情、接口调用视图

应用总览中,查看此应用的请求详情

应用详情中,查看应用下各实例(Pod)的流量详情

接口调用中,查看应用的接口请求情况


3.4.2 场景2. 通过ARMS应用监控、GC情况、应用异常、慢SQL、方法栈

在应用详情 -》JVM监控,可查看应用的GC情况

在接口调用 -》异常分析,可查看应用、接口的异常情况

在接口调用 -》调用链查询中,可以查看调用的详细方法栈


这几个场景作为课后作业,不在此次课上实践。

3.5 Kubernetes监控


进入ARMS控制台 (arms.console.aliyun.com),进入左侧 Kubernetes监控,选择对应集群


3.5.1 场景1. 使用Kubernetes监控查看全局拓扑与网络流量

在左侧 集群拓扑中,可查看全局、过滤对应应用、服务的全局流量拓扑图。

点击上方 Service视图,查看Service中的流量情况,点击Service图表、以及之间的线条,可查看流量指标详情。

3.5.2 场景2. 使用Kubernetes监控查看 错慢请求分析、DNS解析性能分析、网络流量分析

在Workload视图中,搜索coredns,或在Service视图中搜索kube-dns,点击对应图表,查看DNS解析详情,以及DNS请求错误数。(键盘快捷键 Win + F 或 Mac中 Command + F 搜索dns可快速查看dns资源)

image.png

右侧指标详情中,查看错误数中的明细列表,可查看具体DNS解析错误的详细信息。

image.png

可见上图所示例子为 mse-pilot-ack-mse-pilot pod组件,解析域名:addr-bj-internal.edas.aliyun.com.cluster.local 时失败。

3.5.3 场景3. 使用Kubernetes监控拨测功能进行连通性分析


内网拨测功能,支持从集群内拨测探活服务端口是否正常。

以集群内已有Service暴露的TCP端口为例:

首先找到集群内测试Service的ClusterIP与映射的Port。

在Kubernetes监控控制台中,内网拨测功能,新建巡检:

添加巡检任务后,等待1~2分钟,即可刷新页面查询状态:

点击检查点link,即可查询巡检实时结果数据。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
11天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用开发中的角色与实践
【9月更文挑战第9天】 随着云计算技术的飞速发展,云原生(Cloud Native)已经成为推动企业数字化转型的核心力量。本文将深入探讨云原生的基本概念、关键技术及其在实际开发中的应用案例,旨在为读者提供一条清晰的云原生技术学习路径和应用指南。通过实例分析,我们将揭示云原生如何优化资源管理、提升应用性能及加快部署速度,进而帮助企业构建更加灵活、可靠和高效的软件系统。
|
8天前
|
Cloud Native 持续交付 云计算
云原生技术在现代应用开发中的应用与实践
【9月更文挑战第12天】随着云计算技术的飞速发展,云原生已成为推动企业数字化转型的关键技术之一。本文将深入探讨云原生的基本概念、核心价值及其在现代应用开发中的实际应用案例,旨在为读者提供一套清晰的云原生应用开发指南。通过分析容器化、微服务架构、持续部署等核心技术的实践过程,我们将揭示云原生如何助力开发者高效构建、部署和管理可扩展的应用。你将看到代码示例,这些示例均选自真实世界的开发场景,帮助你理解云原生技术的强大功能和灵活性。
|
8天前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
18 3
|
8天前
|
Cloud Native 持续交付 开发者
云原生技术在现代应用开发中的角色与实践
【9月更文挑战第12天】本文将探索云原生技术的核心概念及其在现代软件开发中的应用。通过分析容器化、微服务架构、持续集成/持续部署(CI/CD)和DevOps文化的融合,我们旨在揭示如何利用这些技术提升软件的可靠性、可扩展性和交付速度。同时,文章还将展示一个简化的代码示例,以直观地说明云原生技术的实际应用。
|
14天前
|
监控 Cloud Native 持续交付
云原生时代的微服务架构实践
【9月更文挑战第5天】随着云计算技术的飞速发展,云原生已成为现代软件开发的重要趋势。本文将深入探讨在云原生环境下,如何有效实施微服务架构,包括服务拆分、容器化部署、持续集成与交付等关键环节。通过具体案例,我们将展示如何在云平台上构建弹性、可扩展的微服务应用,并讨论在此过程中可能遇到的挑战及解决策略。
|
13天前
|
监控 Cloud Native 安全
云原生时代的微服务架构实践
【9月更文挑战第6天】在数字化转型的浪潮中,云原生技术以其灵活性、可扩展性成为企业架构升级的首选。本文将通过浅显易懂的语言和生动的比喻,带你一探微服务架构的世界,从理论到实践,逐步揭示如何利用云原生技术构建高效、可靠的微服务系统,同时穿插代码示例,为有志于云原生领域发展的技术人员提供一份实操指南。
30 2
|
15天前
|
Cloud Native 持续交付 Docker
云原生技术实践:Docker容器化部署教程
【9月更文挑战第4天】本文将引导你了解如何利用Docker这一云原生技术的核心工具,实现应用的容器化部署。文章不仅提供了详细的步骤和代码示例,还深入探讨了云原生技术背后的哲学,帮助你理解为何容器化在现代软件开发中变得如此重要,并指导你如何在实际操作中运用这些知识。
|
14天前
|
运维 Cloud Native 持续交付
云原生时代下的微服务架构实践
在数字化转型的浪潮中,云原生技术以其高效、灵活的特性成为企业IT架构升级的首选。本文将通过深入浅出的方式,探讨云原生环境下微服务架构的设计原则、关键技术及实施策略,旨在为读者提供一条清晰的技术路线图,帮助理解和掌握在云平台上构建和管理微服务的实用方法。
|
18天前
|
运维 Cloud Native Devops
云原生时代的DevOps实践:自动化、持续集成与持续部署
【9月更文挑战第3天】未来,随着人工智能、大数据等技术的不断融入,DevOps实践将更加智能化和自动化。我们将看到更多创新的技术和工具涌现出来,为软件开发和运维带来更多便利和效益。同时,跨团队协作和集成也将得到进一步加强,推动软件开发向更加高效、可靠和灵活的方向发展。
|
20天前
|
Kubernetes Cloud Native Docker
探索云原生技术:从容器化到微服务的实践之旅
在数字时代的浪潮中,云原生技术如同一艘航船,带领企业乘风破浪。本文将带你领略云原生的奥妙,从容器化技术的基石Docker讲起,到Kubernetes集群管理的航海术,再到微服务的架构设计,我们将一起构建、部署并运行一个简单的云原生应用。准备好,让我们启航!【8月更文挑战第31天】