2021年7月20日,一场暴雨打破了一座城市的宁静。短短24小时,就让这座黄河边上的“中原粮仓”变成了一片汪洋。
罕见的特大暴雨席卷了整个河南,大雨冲毁了城市里大部分的基础设施,通讯受阻导致大量灾区民众无法获得有效的救援,许多人已经在水里泡了好几个小时却无人知晓。
自7月20晚开始,大量河南暴雨的信息开始在各类社交媒体急速传播,各类在线文档也开始出现。不同类型的救援信息,被志愿者们分门别类地编辑进不同类型的文档,一时间“待救援人员名单”、“避险名单”、“住宿交通物资信息”等文档开始在各类社交媒体内进行传播。
放在平时,一份文档对于我们来说可能是工作和生活的必备工具。但在这次的灾情中,每一份文档都是一条信息高速通道,每一个字符都寄托着社会各界对受灾同胞的殷殷关切。
文档是救援的方舟,在此刻显得尤为重要,石墨文档在第一时间向奋战在抗汛一线的政府部门 / 医疗机构 / 公益组织 / 社会团体 / 个人志愿者等免费提供高级版产品及服务。助力各方做好信息收集与发布,实现更高效的沟通协调。
根据目前的数据,自20日晚起,截止本周,全国共创建了超过1600个灾情相关文档,累计为数百万设备提供了文档协作服务。主题包括现场求援、物资同步、洪灾志愿者填报、洪涝自救知识科普等。在灾情发生24小时内,石墨文档移动端访问量激增5.4倍以上。
《河南洪灾紧急求助信息登记表》分省市访问趋势图
灾情相关文档实时热度图
一条又一条的救命信息,为灾区人民提供了生机,但也让石墨文档背后的IT系统面临着巨大的挑战。而其中最重要的挑战就是:如何保证系统的平稳运行。
只有系统平稳地运行,用户才能在第一时间对各类救命文档进行整理、编辑、归纳等操作,让更多人参与到文档的共同协作当中,让各条救命信息能送到真正有需要的人手中。
在此次灾情中,石墨文档出色地完成了作为“信息载体”的任务,确保文档始终稳定可用。而此次在灾情期间石墨文档能有如此出色表现,很大一部分原因是因为石墨文档早在5个月之前利用阿里云构建了一整套智能运维系统,打通系统全链路可观测数据,实现了统一管理,智能告警和预检能力。
在河南疫情发生不久后,石墨文档SRE团队工程师在7月20日晚值班时突然接到告警电话,电话那头语音自动播报石墨线上K8S集群资源使用率飙升,PV 同比增加200%以上。紧接着又收到某些业务接口访问量骤增和多个资源快到压力位的告警信息,并且伴随着多次容器自动扩容的事件发生。通过基于 SLS 打造的一条全渠道事件总线,快速定位到事件起因:多个文档的读写次数和访问人数出现异常增多。
定位到相关文档后,发现原来是有人使用石墨文档统计救灾信息,所以才有大量用户同时访问。由于访问人数增长过快,不知道后续上涨趋势如何,于是SRE工程师紧急协调了数倍于往日的阿里云计算资源对基础设施进行了大规模扩容。确保这些救灾文档在数千人同时协作,数百万人次浏览的情况下也能保持稳定、流畅的体验,保障救灾工作顺利进行。
一份文档,牵动一城的心;一份文档,打开一条求生通道;一份文档,为河南的受灾群众带去新的希望……
在进入云原生时代后,逐渐完善的IT基础设施,推动者企业业务进行数字化创新。而如何提升用户体验,让业务快速且稳定地为用户服务,是企业在这个时代发展的关键。尤其在面对各种突发情况需要用到该业务时,只有做到“快速且稳定”才能让该业务在关键时刻起到最大的作用。