grafana+ prometheus+php 监控系统实践
版权声明:作者:汤青松 https://blog.csdn.net/u013431141/article/details/81389460
背景
团队在开发流媒体服务,需要实现一个监控在线人数的功能,可以看到历史有多少人在线,当前有多少人在线的功能。
使用Prometheus监控kubernetes集群
一键安装(网络可访问quay.io):
kubectl apply --filename https://raw.githubusercontent.com/giantswarm/kubernetes-prometheus/master/manifests-all.
Prometheus 集成 Node Exporter
Prometheus 官方和一些第三方,已经把一些常用数据库、系统、中间件等的指标数据的采集做成了一个个 exporter,在生产环境中,直接导入使用就可以。 这一节,我们就用 Prometheus 官方提供的 Node Exporter 来完成对Linux系统运行数据的采集 。
【翻译】Prometheus 2.2.0 新特性
Prometheus 2.2.0 现在(2018.3.12)已经发布,在 1 月份的 2.1.0 之后又进行了一些修正和改进。
这个版本的存储格式发生了变化,所以一旦升级到2.2.0,就不可能降级回去。
体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源
通过ARMS管理Kubernetes集群GPU性能指标
在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。