开发者社区> 问答> 正文

昨天半夜的一次故障处理



问题起源:昨天夜里,我们的网站的客户系统突然无法访问,检查发现是某台服务器down机了。正好阿里云在升级后台,控制台也无法使用,只能找客服了。


2013-05-17 01:18:35 ,提交工单。


以下是客服的工单回复,中间接了2次阿里打来的电话。
    
阿里云计算    1:19 (14 小时前)
回复内容为: 您的问题我们已经受理并已经安排处理,请您稍后!


阿里云计算    1:22 (13 小时前)
回复内容为: 您好,导致您的主机42.121.xxx.xxx无法远程的原因是主机IO过高导致,目前无法登录主机,建议您授权重启主机后观察IO过高的程序进行优化。


阿里云计算    1:23 (13 小时前)
回复内容为: 您好,请您稍等,马上为您重启主机42.121.xxx.xxx,请稍等。


阿里云计算    1:51 (13 小时前)
回复内容为: 您的主机已经重启完毕,但是无法正常进入系统,请您参考附件,建议您回滚系统盘快照,系统盘快照时间5月9日到15日凌晨均有系统盘快照,请您参考。


阿里云计算    2:09 (13 小时前)
回复内容为: 您好,您的主机系统盘已经回滚至5月15日凌晨,但是依然无法正常启动,报错和之前的一样,请您确认是否再次回滚快照。


阿里云计算    2:30 (12 小时前)
回复内容为: 您好,已经和您电话沟通,您已经同意继续向后回滚系统盘,现在为您操作,请您稍等。


阿里云计算    3:17 (12 小时前)
回复内容为: 您好,您的主机系统盘已经回滚至最后一个快照4月21日凌晨,但是报错和之前的信息一样,由于您长时间没有重启过主机,快照本身有可能就存在问题,导致回滚后依然报错,建议您在主机4时升级完成后初始化系统盘,请您参考。


阿里云计算    3:18 (12 小时前)
回复内容为: 您好,已经和您电话沟通,建议您4时后尝试登录控制面板,重置主机系统盘。


凌晨4点以后,重置了该主机,数据盘一切完好。4点30分主机配置好重新上线。


结论:
1. 所谓的系统快照,不是万能的。即使你做了系统快照,阿里也不保证这个快照一定有用,能用。
2. 阿里似乎不赞同长期不停机的情况。
3. 使用任何主机,都应当提前考虑单点故障的问题。虽然我们有做冗余,但是还没上自动切换机制,所以服务还是暂停了大约20分钟。万幸是半夜。。
4. 根据阿里提供的数据,该主机在23点以后IO突然彪高,最终导致down机。但是发生这种情况的原因,目前看来是无法得到了。
5. 最近阿里的客服有进步,昨晚的工单在1分钟以内就有回应了。赞一个。

展开
收起
akira 2013-05-17 15:54:48 9447 0
5 条回答
写回答
取消 提交回答
  •   有人还建议把数据都放在系统盘 呢 看来就是胡扯啊  还是数据盘靠谱
    不然快照完蛋了
    找谁弄数据去
    2013-05-18 10:17:43
    赞同 展开评论 打赏
  • 我都已经很熟悉阿里处理io问题的套路了:io高吧,重启服务器啊,然后改善你程序去吧,然后,没然后了!
    2013-05-17 20:24:55
    赞同 展开评论 打赏
  • 是不是可以这样理解,当源盘出现IO错误时,这时候源盘的文件可能已经损坏,自动快照将损坏的文件不断备份,恢复出来也是错误的。看来人工备份还是必须的。
    2013-05-17 17:08:27
    赞同 展开评论 打赏
  • 好像阿里云每天凌晨3:00都有一次备份 你可以申请回滚到凌晨3:00阿里云做的备份
    而不是你自己做的快照~

    -------------------------

    回 3楼(akira) 的帖子
    自己也可以做呀 主要是回滚到最新的数据

    -------------------------

    回 5楼(akira) 的帖子
    我的回滚过一次 好像可以
    2013-05-17 16:08:10
    赞同 展开评论 打赏
  •     刚才接到阿里打来的电话,再次说明了一下昨天晚上的问题。提到,如果遇到无法重启的情况,可以先让技术尝试修复引导,而不是直接重置系统。


        阿里呀,你们有在做知识库么?客服和技术的沟通渠道顺畅么?要不要考虑换个售后主管?

    -------------------------

    回 2楼(牛逼王) 的帖子
      回滚的就是阿里自动做的快照。 我自己是从来不做系统快照的。

    -------------------------

    回 4楼(牛逼王) 的帖子
    重点不在于谁做的快照,而是系统快照也有可能无法正常启动

    -------------------------

    回 8楼(gdliwt) 的帖子
    只要你不是刚重启,是无法确认源盘是否已经损坏了的。
    2013-05-17 16:07:17
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
美团 crash 监控分析系统优化之路:crash 率从千分位到万分位 立即下载
“啄”壮成长-移动app线上日志分析利器 立即下载
“啄”壮成长,移动app线上日志分析利器 立即下载

相关实验场景

更多