基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
Prometheus 由于时间不同步导致数据不显示
现象描述
将 Prometheus 数据在 Grafana 中进行展示,Grafana 中 Graph 数据显示有延迟,其他类型 Singlestat 和 Table 都显示 N/A 。
排查
1. 排查数据库
发现 Prometheus 数据库端一切正常,
2.
Kubernetes弹性伸缩全场景解读(二) - HPA的原理与演进
#### 前言
在上一篇文章中,我们介绍了在Kubernetes在处理弹性伸缩时的设计理念以及相关组件的布局,在今天这篇文章中,会为大家介绍在Kubernetes中弹性伸缩最常用的组件HPA(Horizontal Pod Autoscaler)。HPA是通过计算Pod的实际工作负载进行重新容量规划的组件,在资源池符合满足条件的前提下,HPA可以很好的实现弹性伸缩的模型。HPA到目前为止,