使用云监控和函数计算,秒级恢复故障
云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。
试想这样一个场景:
当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。
如何做到?
云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管理;同时,__可以实现在云产品异常事件发生的第一时间,对用户广播通知,同时打通了事件与函数服务,在事件发生时触发函数计算的执行,快速实现诸如eip迁移,slb带宽扩容,slb摘掉故障服务器等操作,以实现故障的快速恢复__。
基于阿里云的 Node.js 稳定性实践
稳定性一般指的是应用持续提供可用服务的能力。一旦应用频繁不可用或出现故障无法及时恢复,对用户的使用体验都是巨大的伤害,甚至会造成很多更严重的后果,因此如何保障应用的稳定性应该是每一个应用开发者都要关注的“头等大事”。本文将介绍基于阿里云的 Node.js 稳定性实践。
阿里云监控grafana数据源使用说明文档
一. grafana安装
如果服务器上没有安装grafana,需要在服务器上安装grafana。
grafana卸载:
1.1 查看grafana安装情况
rpm -qa | grep -i grafana
1.
阿里云新发布ECS状态变化类事件
阿里云ECS在已有的系统事件的基础上,通过云监控新发布了状态变化类事件和抢占型实例的中断通知事件。利用这些新发布的事件,客户可以将ECS的完整生命周期实时的同步到自己的日志里或者数据库里,满足查询和审计的需要,或者直接触发函数计算进行一些自动化的运维操作。