Guest OS 可用性的核心是减少系统的非计划停机时间(Unplanned Down Time)。 系统可以在操作系统的软件层之上,使用高可用方案保障业务的连续性,减少系统不可用时间对业务可用性的影响。然而,Guest OS 对故障检测和 Failover 过程更友好的支持,可以大大提升云上 Scale Out 系统的运维效率。 系统不可用可能有很多原因,从错误现象上分为以下三类。
• 宕机(Panic):内核检测到软件或硬件错误,进入 kernel panic 流程,然后重 启恢复服务。这时,系统的恢复时间和 panic 流程里 crashdump 的性能、启动性能都有关系。
• 夯机(Hang):内核全局夯死。这时软件可以通过网络心跳,或者设置内核看门狗(Hard/Soft Lockup Watchdog)等手段检测到夯机。此时可以触发应用层的 failover,并触发 kernel panic 来保障夯机原因得到诊断。
• 任务夯(Task Hang):关键进程在内核卡死或者卡顿超时。这时软件可以通过内核看门狗(Hang Task Detector)检测到任务夯,此时可以触发应用层的 failover,并触发 kernel panic 来保障任务夯原因得到诊断。
《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。