问题起源:昨天夜里,我们的网站的客户系统突然无法访问,检查发现是某台服务器down机了。正好阿里云在升级后台,控制台也无法使用,只能找客服了。
2013-05-17 01:18:35 ,提交工单。
以下是客服的工单回复,中间接了2次阿里打来的电话。
阿里云计算 1:19 (14 小时前)
回复内容为: 您的问题我们已经受理并已经安排处理,请您稍后!
阿里云计算 1:22 (13 小时前)
回复内容为: 您好,导致您的主机42.121.xxx.xxx无法远程的原因是主机IO过高导致,目前无法登录主机,建议您授权重启主机后观察IO过高的程序进行优化。
阿里云计算 1:23 (13 小时前)
回复内容为: 您好,请您稍等,马上为您重启主机42.121.xxx.xxx,请稍等。
阿里云计算 1:51 (13 小时前)
回复内容为: 您的主机已经重启完毕,但是无法正常进入系统,请您参考附件,建议您回滚系统盘快照,系统盘快照时间5月9日到15日凌晨均有系统盘快照,请您参考。
阿里云计算 2:09 (13 小时前)
回复内容为: 您好,您的主机系统盘已经回滚至5月15日凌晨,但是依然无法正常启动,报错和之前的一样,请您确认是否再次回滚快照。
阿里云计算 2:30 (12 小时前)
回复内容为: 您好,已经和您电话沟通,您已经同意继续向后回滚系统盘,现在为您操作,请您稍等。
阿里云计算 3:17 (12 小时前)
回复内容为: 您好,您的主机系统盘已经回滚至最后一个快照4月21日凌晨,但是报错和之前的信息一样,由于您长时间没有重启过主机,快照本身有可能就存在问题,导致回滚后依然报错,建议您在主机4时升级完成后初始化系统盘,请您参考。
阿里云计算 3:18 (12 小时前)
回复内容为: 您好,已经和您电话沟通,建议您4时后尝试登录控制面板,重置主机系统盘。
凌晨4点以后,重置了该主机,数据盘一切完好。4点30分主机配置好重新上线。
结论:
1.
所谓的系统快照,不是万能的。即使你做了系统快照,阿里也不保证这个快照一定有用,能用。
2. 阿里似乎不赞同长期不停机的情况。
3. 使用任何主机,都应当提前考虑单点故障的问题。虽然我们有做冗余,但是还没上自动切换机制,所以服务还是暂停了大约20分钟。万幸是半夜。。
4. 根据阿里提供的数据,该主机在23点以后IO突然彪高,最终导致down机。但是发生这种情况的原因,目前看来是无法得到了。
5. 最近阿里的客服有进步,昨晚的工单在1分钟以内就有回应了。赞一个。
-------------------------
-------------------------
-------------------------
-------------------------
-------------------------
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。