用自定义监控实现 GPU 异常状况的检查与报警
## 应用场景 ##
* 阿里云的云监控已原生支持 GPU 实例,可参考:[云监控实现GPU云服务器的GPU监控和报警](https://yq.aliyun.com/articles/610219)
* 小概率场景中,GPU 卡会处于异常状态( 例如因[显存校验失败](https://docs.
X-Pack Spark 监控指标详解
概述
本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。
Ganglia
Ganglia是一个分布式监控系统。
Ganglia 入口
打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。
阿里云服务器有哪里优势?为什么优先选择阿里云服务器?
阿里云服务器是一种高效,计算能力可弹性伸缩的云计算服务,用户可根据业务需要,随时创建,修改,释放云服务器ECS配置。他运行于阿里云自研的飞天操作系统;具有计算性能可弹性伸缩,存储空间可扩展,网络配置可自定义的低耦合特性。
阿里云服务器有哪里优势?为什么优先选择阿里云服务器?
阿里云服务器是一种高效,计算能力可弹性伸缩的云计算服务,用户可根据业务需要,随时创建,修改,释放云服务器ECS配置。他运行于阿里云自研的飞天操作系统;具有计算性能可弹性伸缩,存储空间可扩展,网络配置可自定义的低耦合特性。
阿里云王广芳:5G时代,我们需要怎样的边缘计算?
企业所需的边缘计算需要提供三个方面能力,第一是网络和资源的覆盖,保障海量边缘节点和弹性的基础设施来覆盖终端接入,第二是提供边缘的基础算力,包括计算、存储、网络、安全、调度等一些基础能力,第三是建立边缘远程运维体系,支持边缘应用的快速部署、升级和监控。
基于阿里云云监控的企业级监控平台构建
随着阿里云云监控产品的日渐完善,基于云计算的IT资产监控越来越方便,结合已经开放的API和外部回调接口等功能,企业级客户的监控系统可以变得更加强大。传统需要在主机上装agent的监控体系,例如zabbix以及类似其他的商业软件都不再适用云IT资产,主要体现在:
除了ECS可以继续安装agent以外,类似云RDS,云Redis,MaxCompute等云产品根本没有提供这种agent数据采集的入口。
使用PTS对网站进行压测
最近在阿里云搭了一个博客,用阿里云提供的PTS对网站做了一下压测,现在把压测的步骤分享出来,有类似做网站或外贸电商的也可以参考下(产品部署步骤省略,只有压测和性能分析)。所用云产品如下(长期使用选择包年可享受一定官网优惠):云产品(华北5) | 标题3 RDS(MySQL5.