《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(3) https://developer.aliyun.com/article/1232777
ROUND 6:落地完成
通过和 SAE 平台不断的磨合验证,在第 7 天的时候,我们所有应用已经全面 Severless 化,ALL ON SAE 了。
整个迁移过程平滑,无任何改造成本,零故障,并且只投入了 1 ~ 2 个研发人员。
我们整体分析了一下,SAE 给南瓜电影带来的价值,可以归纳成几点:
1)扩容更快:再也不用考虑高峰期不够、低谷期浪费了,SAE 会按照最优化自动伸缩调整实例数。
2)发布更快:通过 CI/CD 流水线提升发版效率、通过 Cloudtoolkit 插件快速实现本地一键部署到云端 SAE,开发
调试很方便。
3)运维更省心:免运维不是不运维,对我们来说当你收到告警,登上控制台,开始修复的一刹那,基本上就已经
完成了,整个运维速度比人工更加快捷
4)查问题更快:SAE 自带的监控能力,给我们排查问题节省了大量的时间。
经过测算,相比我们之前传统服务器模式,开发效率提升 70%,成本下降超过 40%,扩容效率提升了 10 倍以上。、总4、总结 & 期待
最后,我们把使用过程中的一些总结、踩过的坑分享给大家。
1)多可用区部署:之前我们所有应用都只配置单可用区 A 就吃过亏,后来在 SAE 团队的建议下,全部切成多可用
区部署容灾,所以严重推荐这个注意点。
2)分批 / 灰度发布策略:多实例的应用一定要分批或者灰度发布,以避免异常情况对整体业务的影响,并且整个发
布一定要做完整的测试。
3)健康检查:应用自定义的健康检查脚本一定要前置 check,避免因脚本自身的问题导致应用一直启动失败。
4)扩容阈值的合理设置:扩容的阈值一定要多测试,做过系统压测之后再定。必要的时候适当调小点阈值,宁愿多
扩实例也不要出现线上故障。
5)配置 SLS 日志和 ARMS 报警:建议一定配置 SLS 本身日志和 ARMS 报警,为事后问题定位提供非常大的
帮助。
我们同时也对 SAE 充满了期待:比如希望优化 Java 冷启动时长,我们有些应用光启动就要 1-2 分钟(后来了解
SAE 已经实现了)。也希望 SAE 更进一层,提供一套完整 Serverless 架构给到用户:不只是应用层,还包括数据库,
网络等,彻底让我们只关注业务开发。虽然这个实现起来可能会比较难,需要点时间,但我们对 SAE 很有信心。
最后,衷心感谢阿里云 SAE 在南瓜电影发展历程中的携手与支持,使用 SAE 以后,大面积的故障到现在为止还没
有发生过一次。整个过程中,我们也收获了很多经验,让我们可以快速通过它对用户提供服务。
南瓜电影也会一如既往地为广大影迷朋友们带来最优质的影片资源和最极致的观影体验,为社会创造更多的正能量。
也祝愿阿里云敢梦想敢创新再创佳绩,服务全球更多的企业!