阿里速度! SRE团队全力保障多地健康码顺利上线

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 如何精准防控,统筹疫情期间的各项工作,有序稳健恢复经济社会秩序,成为当务之急。对此,阿里巴巴快速反应,除各种物资支持、政策响应外,还配合多地政府开发健康码,充分运用大数据手段助力疫情防控和复工复产,实现数字化防疫,让政府相关人员更快速、更清晰、更精准地进行防控管理决策。
本文始发于:云栖社区
时间:2020-06-02

2020年初,新冠肺炎疫情爆发。春节后,企业要复产,百姓要复工,政府需尽快保障各项工作有序开展。如何精准防控,统筹疫情期间的各项工作,有序稳健恢复经济社会秩序,成为当务之急。对此,阿里巴巴快速反应,除各种物资支持、政策响应外,还配合多地政府开发健康码,充分运用大数据手段助力疫情防控和复工复产,实现数字化防疫,让政府相关人员更快速、更清晰、更精准地进行防控管理决策。

健康码开发期间,SRE团队发挥团队优势,紧急召开专题会议,成立专项应急小组,协调各方资源,并在第一时间赶往各省市,配合相关团队完成资源准备、业务压测、业务优化等工作,保证了多地健康码的顺利上线。健康码上线后,SRE团队持续对各项关键指标数据进行监控,确保健康码应用可以承受业务高峰压力并顺利运作。

1 河南健康码——一“码”当先

河南省疫情防控指挥部依据《国务院应对新型冠状病毒肺炎疫情联防联控机制关于依法科学精准做好新冠肺炎疫情防控工作的通知》等相关法律法规,结合河南省实际情况,制定“健康码”管理办法。项目3月5日正式启动,按照局方要求3月9日上线投入使用,团队接到通知提前一天3月4日第一个到达现场。

团队到现场后,首先梳理资源需求与系统部署架构,提前完成资源开通准备及远程环境准备,以保障其它团队可远程交付。其次评估系统压测目标,并对系统进行多轮多场景压测,压测过程中发现并处置1处业务逻辑问题、3处产品优化、1处APIServer资源瓶颈扩容问题,最终达到压测目标并设置AHAS限流控制保障系统稳定运行。安全方面全部使用https域名证书并接入WAF,对系统安全访问进行加固。运维监控方面接入ARMS、TAC、封神、铜雀等运维监控巡检平台保障系统运行稳定。系统顺利于3月9日18:00正式上线,截至3月15日健康码累计申领人数380W。接下来政府将对全省各市级推广,阿里云SRE团队将继续支持客户保障健康码业务稳定。
image.png

2 海南健康码——一心战“疫”

面对新型冠状病毒肺炎疫情的迅猛爆发,针对海南省精准防控、疫情统筹与经济社会秩序恢复的指导方针,海口市政府与市科工信局等单位立即展开多方协同,要求第一时间上线疫情申报相关应用,即海南省健康一码通应用。这是首个全省健康码应用,政府采取多种方式推广,需要在上线第一周内完成全省900多万市民的注册和使用。

由于海口城市大脑云平台资源已经接近饱和,阿里云SRE-TAM团队紧急召开专题会议,迅速成立专项应急小组,与AM团队一起争分夺秒协调海南其他项目组,完成紧急资源释放、扩容及相关并网,并通过全链路压测、资源的提前储备(ECS、SLB)、应用同步改异步(MQ)、数据库读写分离(RDS)以及业务限流(AHAS)等优化手段,为海南健康码保驾护航。健康码准时上线并向全省推广,在此期间阿里云SRE-TAM团队、应用团队以及AM团队联合进行每日的护航保障,通过个性化运维监控方案实现关键资源、核心实例、业务指标等监控,并进行网络相关保障,确保健康码应用可以承受业务高峰压力并顺利运作。截止3月24日,健康码应用注册使用量达到300万+,预计在4月底注册使用量将超过1000万。该系统将有助于更加科学高效地防范疫情,更好地服务广大人民群众安全,为打赢这场全民战役贡献一份力量!
image.png

图2:海南健康码成果图

3 苏州健康码——阿里速度

为解决大量外来人口返苏复工的管理难题,提升人员流动效率,苏州市政府、苏州市疫情防控指挥部决定上线苏城码(苏州健康码)。阿里云数字政府华东大区江苏团队和集团GR团队、蚂蚁团队、GTS团队和数据智能团队,从接到需求、立项、进场部署仅仅耗时40小时就完成了“苏城码”上线,这是除浙江省外第一个运用阿里数据引擎短时间完成上线的城市,我们充分运用数字化防疫,为中国最强地级市打造便捷、高效的管理模式!

【与时间赛跑,火速拉齐,投入战斗】
客户根据本地情况提出了很多定制化开发的需求,面对客户需求,团队快速分析、展开调研、拿出最终方案,客户最终同意将整个系统部署在苏州城市大脑平台上,充分发挥城市大脑在算力、数据融合方面的强大能力。
image.png

图3:客户现场讨论方案

【不眠不休展开部署】
确定方案之后,项目团队不眠不休,火速在现场展开各项部署,与时间赛跑。数字政府和支付宝团队项目经理在现场合理组织交付节奏和方案实施。数据智能的精兵强将,现场与客户的各个专班展开对接,确定客户各项需求的实施方案。GTS的交付同学精准实施,从硬件到软件的全维度保证了项目上线。

客户对于苏州团队的努力和付出非常感动和认可,苏州市副市长江海同志亲自到现场慰问项目团队,感谢团队成员争分夺秒为苏州全市人民平稳复工复产所做出的努力。
image.png

图4:市领导慰问现场项目团队

【践行客户第一的价值观,组织重保团队力保稳定运行】
2020年2月22日晚9:30分,苏州市疫情防控指挥部正式下发第9、10号公告,在全市正式推广“苏城码”。在公告下发之后的2小时之内完成了40万的健康码发码,平台瞬间流量激增,业务平台受到了极大考验,现场GTS同学密切监控、随时排障,苏州城市大脑平台经受住了考验。
image.png

图5:项目顺利上线

为保证项目能够长期稳定可靠地运行,GTS同学快速拉通GOC团队建立项目重保机制,得到客户首肯。江海副市长和李晶处长现场说,只有把业务放在阿里云上才放心!并且表示要把苏城码在城市通行场景方面做有力探索,让苏城码成为苏州市民通行的电子码。与此同时,也有其他政府部门开始思考苏城码与各自业务的结合,比如园林局考虑是否可以把苏城码和园林的进出和电子票进行结合,加强园林的管理和通行效率。

“一心战一疫”,“客户第一”!借助苏州健康码项目的火速上线,再次刷新了健康码快速上线的速度,既服务了客户,也激发了团队强大的战斗力,同时为数字政府在苏州乃至江苏的破局打下了坚实的基础!

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

image.png

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
7月前
|
消息中间件 监控 前端开发
研发人员如何做好日常工作的稳定性保障
本文介绍了一些研发人员如何做好稳定性建设的工作事项
232 0
|
7月前
|
数据管理
速来测试|你所在企业的数智化升级到位了吗?
速来测试|你所在企业的数智化升级到位了吗?
|
算法 Java 业务中间件
研发人员如何才能在做业务的过程中自我增值?
如何才能在做业务的过程中不再是资源一样被消耗而是像资产一样自我增值?如何成长?如何高效率地成长?如何让自己的成长走在环境要求的前面? 基于以上这些问题,本文将依次阐述以下内容: 先从“人的本质”入手(第二章节),接着探讨“人的成长”的本质(第三章节),最后再探讨业务和技术的一般规律及应对策略(第四、第五章节)。 需要注意的是,以下内容受限于个人能力和经验有限,在描述规律的过程中,可能会存在维度的缺失;或者当前描述的规律所涉及的维度并不是某些读者认知中的重点,因为事物不同的维度在不同角色和级别的人的认知中重要程度不同。
262 1
研发人员如何才能在做业务的过程中自我增值?
|
运维 监控 负载均衡
《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.1 制定SRE黄金准则
《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.1 制定SRE黄金准则
150 0
|
弹性计算 运维 Shell
《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.3游戏部署的自动化实践
《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.3游戏部署的自动化实践
188 0
|
运维
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.2 北京冬奥应急流转流程
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.2 北京冬奥应急流转流程
|
运维 数据挖掘
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)
137 0
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上)
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上)
108 0
|
安全 机器人
阿里云钉钉上线专属解决方案 助力800万保险代理人疫情期工作
阿里云钉钉上线专属解决方案 助力800万保险代理人疫情期工作
阿里云钉钉上线专属解决方案 助力800万保险代理人疫情期工作
|
大数据 开发者
阿里速度! SRE团队全力保障多地健康码顺利上线
2020年初,新冠肺炎疫情爆发。春节后,企业要复产,百姓要复工,政府需尽快保障各项工作有序开展。如何精准防控,统筹疫情期间的各项工作,有序稳健恢复经济社会秩序,成为当务之急。对此,阿里巴巴快速反应,除各种物资支持、政策响应外,还配合多地政府开发健康码,充分运用大数据手段助力疫情防控和复工复产,实现数字化防疫,让政府相关人员更快速、更清晰、更精准地进行防控管理决策。
阿里速度! SRE团队全力保障多地健康码顺利上线