如何在 ACK 中使用 ARMS Prometheus|学习笔记

简介: 快速学习如何在 ACK 中使用 ARMS Prometheus

开发者学堂课程【5分钟玩转阿里云容器服务如何在 ACK 中使用 ARMS Prometheu s】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1038/detail/16107


如何在 ACK 中使用 ARMS Prometheus


内容介绍:

一.ARMS Prometneus

二.Prometheus 监控


一.ARMS Prometneus

容器服务可观测体系中 Mtrics 部分主要介绍 Prometheus 监控。

Prometheus 是继 K8s 之后 CNCF 第二个毕业项目,

Prometheus + Grafana 的组合解决方案,目前已经成为云原生时代指标监控的事实标准。

image.png

2Metric 指标作为云原生可观测体系的3大支柱之一,拥有非常广泛的应用场景,包括在用户上云或业务变更前,进行压测时的容量水位评估,应用日常业务稳定性保障,应用性能调优的水位对比,以及经常会遇到的异常情况下的故障排查等。

阿里云容器服 ACK 无缝集成了阿里云,ARMS Prometneus 云产品能力,实现开箱即用的 Prometheus 监控数据采集与无缝集成的大盘展示。

首先我们可以在购买集群时组件配置步骤中,通过勾选开启 Prometheus 监控服务,即可在集群创建完成后获得 ARM Prometheus 监控能力,已经创建完成的集群可以通过在 ACK 集群控制台,左侧运维管理 - Prometheus 监控 - Tab 页进行开启。

image.png

开启阿里云 Prometheus 后,集群中会安装

ack-arms-prometheus 组件,可在 ACK 控制台运维管理、日志与监控分类下,看到 ack-arms-prometheus 组件安装情况

image.png

开启阿里云 Prometheus 后,集群中会创建预置的 ACK 集群监控大盘,覆盖常用的 ACK 集群指标监控场景。


二.Prometheus 监控

1、监控概览

监控概览分类下可通过大盘全局快速的看到此集群的整体集群水位情况,包括集群的内存、CPU 及文件系统的使用水位,以及具体使用情况,大盘包括网络压力的负载,及更细致的实时水位情况

image.png

ACK Pro 集群支持 control plane 核心组件的监控大盘,包括 API Server、CCM、ETCD、KCM 以及 K8s Scheduler 等关键核心组件的大盘,该大盘在大集群重保的场景下,有非常重要的作用。

如 API Server 大盘,展示 API Server 的 QPS、读写成功率及访问 API Server,不同资源、不同操作的具体 RT 与请求的水位情况,当用户使用应用频繁的访问集群 API Server 等其他核心组件时, API Server 大盘可以提供 集群水位负载情况的保障,进行集群重保,节点监控,提供此集群宿主机节点的详细节点监控情况。

image.png

2、节点监控

节点监控包括节点的黄金指标 CPU memory 以及更细致的情况,如当前使用的文件句柄统计,及磁盘、空间,网络 IO 及磁盘 IO,甚至包括4层的网络,实时请求的监控情况

3、应用监控

应用监控是 ACK 场景上最常用的监控大盘,包括 K8s 概念,守护进程集(Daemonsets),无状态应用、Deployments、容器副本(Pod)等应用视角。

image.png

在 Pod 监控大盘中,我们可以通过筛选,查看指定的 Pod,其中包括此 Pod 的监控水位、内存、CPU,以及内存、CPU 的 request 和 limit 的实时情况,同时也包括此 Pod 实时 CPU Throttle (CPU 限流)。包括 CPU 的限流 Rate、CPU Throttle,当 CPU 限流 Rate 高的情况下,该 Pod 将会被 CPU 限流,影响 Pod 的使用性能,此大盘可以进行业务的运维重保以及性能调优。

ACK 的 Prometheus 大盘,还默认集成了网络监控、存储监控等,常用的大盘网络监控包括 CoreDNS ,集群的 Ingress 实时流量,存储监控可以查看,CSI 挂载的外部磁盘的实时存储情况

GPU 监控,可以实时的展示此集群中 GPU 节点的 GPU 使用率,集群内存以及计算的实时使用率等情况,通过 ACK Prometheus 监控右上角跳转至 ARMS Prometheus 控制台,能够更细致的管理 Prometheus 云服务,此处可以通过服务发现页面查看当前集群中采集的指标的统计。

image.png

ARMS Prometheus 支持兼容开源的 Prometheus 采集配置方式,包括默认的服务发现,只需要在 Pod 中打上 annotations 即可上报 Pod 的 Prometheus 监控数据。Service Monitor 及 Pod Monitor 可通过下发 CRD 至集群中的方式,快速配置 ACK 集群中的 Prometheus 采集,自定义服务发现,可以兼容社区版开源 Prometheus.yaml 采集配置。

Prometheus 也支持白屏化的报警配置,通过 ARMS Prometheus 页面中的告警规则配置可以白屏化的进行,K8s 集群的 Prometheus 指标配置,此处可以选择常用的 K8s 报警规则配置项,同时用户也可通过自定义 PromQL 通过开源的 PromQL 标准进行报警规则的配置。

image.png

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
325 3
|
存储 Prometheus 运维
【阿里云云原生专栏】云原生下的可观测性:阿里云 ARMS 与 Prometheus 集成实践
【5月更文挑战第25天】阿里云ARMS与Prometheus集成,为云原生环境的可观测性提供强大解决方案。通过集成,二者能提供全面精准的应用监控,统一管理及高效告警,助力运维人员及时应对异常。集成示例代码展示配置方式,但需注意数据准确性、监控规划等问题。这种集成将在云原生时代发挥关键作用,不断进化以优化用户体验,推动业务稳定发展。
475 0
|
存储 Prometheus 运维
(一)ACK prometheus-operator 之架构梳理
本文以troubleshooting的思维为切入点,深入梳理prometheus-operator架构原理,技术上跟阿里云arms_prometheus是相通的,便于在问题场景中快速定位。
2073 1
(一)ACK prometheus-operator 之架构梳理
|
Prometheus 监控 Kubernetes
(二)ACK prometheus-operator之 配置自定义组件监控
使用ack-prometheus-operator 在阿里云ACK专有版集群里,默认未采集 etcd / scheduler/ kcm/ccm/kube-proxy等管理组件的监控数据,需要手动配置证书、采集等配置。本文目的在于解决由于不正确的配置带来的监控异常,也顺便扫盲“更新Prometheus Server的配置prometheus.yml"这几个词在operator体系中的具体配置步骤。
2031 0
(二)ACK prometheus-operator之 配置自定义组件监控
|
Prometheus 监控 Kubernetes
《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(上)
《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(上)
|
Prometheus 运维 Kubernetes
《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(下)
《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(下)
|
Prometheus 监控 Cloud Native
使用Prometheus监控kubernetes集群
一键安装(网络可访问quay.io): kubectl apply --filename https://raw.githubusercontent.com/giantswarm/kubernetes-prometheus/master/manifests-all.
3228 0
|
存储 Prometheus 监控
用 Prometheus 来监控你的 Kubernetes 集群
本文是才云科技(CaiCloud)5月6日沙龙“Kubernetes Meetup 中国 2017”才云的首席架构师唐鹏程的演讲实录。 大家下午好,我是才云科技的唐鹏程,今天演讲的题目是《Monitoring Kubernetes cluster with prometheus》,我知道在坐很多人已经在实际应用 Kubernetes 了,并且在各个业务部门的应用容器化之后,已经可以在 K8S 里面正常运行。
2234 0
|
Prometheus 监控 Kubernetes
Prometheus-使用Prometheus监控Kubernetes集群
  Prometheus是一个集数据收集存储、数据查询和数据图表显示于一身的开源监控组件。本文主要讲解如何搭建Prometheus,并使用它监控Kubernetes集群。
3329 0
|
2月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
298 1