可观测监控 Prometheus 版

首页 标签 可观测监控 Prometheus 版
# 可观测监控 Prometheus 版 #
关注
2137内容
【翻译】Prometheus 2.4.0 新特性
Prometheus 2.4.0 现在(2018.9.17)已经发布,在 6 月份的 2.3.0 之后又进行了一些修正和改进。 第一个较大的变化是,对于警报中的状态,现在跨重启持久化,因此短暂的重启将不再需要挂起警报从头开始。
| |
来自: 云原生
体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源
通过ARMS管理Kubernetes集群GPU性能指标 在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。
Prometheus 2.14.0 新特性
Prometheus 2.14.0 现在(2019.11.11)已经发布,在上个月的 2.13.0 之后又进行了一些修正和改进。 这次最大的新功能是基于 React 的新 UI,与现有 UI 大体相同。
云原生生态周报 Vol. 12 | K8s 1.16 API 重大变更
本文作者:源三、临石、张磊、莫源 业界要闻 1. K8s 1.16 将废弃一系列旧的 API 版本 影响面涉及 NetworkPolicy、PodSecurityPolicy、DaemonSet, Deployment, StatefulSet, ReplicaSet 和 Ingress。
Flink 1.10 Container 环境实战
本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,介绍我们遇到的问题、踩过的坑;最后一部分是 Demo,将手把手演示集群部署、任务提交等等。
免费试用