干货!《云上业务稳定性保障实践白皮书》免费下载!

简介: 本书通过多位资深阿里云客户技术服务经理在大型项目中积累的业务稳定性保障经验以及集团内多年沉淀形成的稳定性建设体系,希望可以给读者提供一套可落地的方法论和多种云上业务稳定性保障的关键技术手段。

<<在线阅读和免费下载《云上业务稳定性保障实践白皮书》>>

云上业务的稳定性至关重要,这是所有人的共识。每个成功的公司或产品都会投入大量的时间和精力,甚至成立专门的部门来专注于业务稳定性的提升。但稳定性保障是一个复杂、长期的过程,需要从实践中积累经验并逐渐形成体系化的标准,所以无论是对于上云初期还是在云上已经运行多年的用户,业务稳定性保障都一直是个及其重要且具有挑战性的技术话题。本书从概念体系到行业实践案例,希望可以给读者提供一套可落地的方法论和多种云上业务稳定性保障的关键技术手段。

概念体系

本书从稳定性和故障这两个关键概念入手,把抽象的概念转化为可度量的定义,让稳定性保障的目标更加清晰具体。从故障等级定义、故障分体系、故障发现、故障应急、故障快恢、故障复盘、改进追踪等多个方面对故障管理体系建设进行了全面介绍。另一方面也从变更标准流程规范、五大关键变更管控动作(准入、灰度、观测、回滚和数据上报)对变更管控体系进行了多方面解析。

行业实践案例

基于多个大型项目中积累的实践经验,针对新游上线、容器化部署,赛事直播活动保障、直播业务监控,平台网站业务的监控预警体系建设、全链路压测与容量评估、高可用架构建设、故障演练与紧急预案设计等典型场景,多方位地讲解了云上业务稳定性保障的多个关键技术手段。

相关文章
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
存储 监控 f2etest
前端故障演练的探索与实践 | D2分享视频+文章
这些年来,随着前端技术的演进,特别是serverless、跨端、端计算等新技术的引入,前端架构的复杂程度成爆炸式增长。我们尝试通过前端故障演练来提升前端安全生产的水位。
3559 151
前端故障演练的探索与实践 | D2分享视频+文章
|
Prometheus 监控 前端开发
prometheus|云原生|grafana-9.4.3版本的主题更改
prometheus|云原生|grafana-9.4.3版本的主题更改
2019 0
|
监控 容灾 Java
系统稳定性建设三件事
本文分享了作者学习稳定性工作、构建思路、落实方案,面对问题不断反思再推进的经验总结。
系统稳定性建设三件事
|
消息中间件 缓存 Cloud Native
大促场景系统稳定性保障实践经验总结
11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍。
13975 106
大促场景系统稳定性保障实践经验总结
|
监控 API 持续交付
深入理解微服务架构:优势与挑战
【10月更文挑战第6天】深入理解微服务架构:优势与挑战
700 0
|
机器学习/深度学习 敏捷开发 人工智能
软件测试的未来:AI与自动化的融合之路
本文将探讨人工智能(AI)和自动化技术如何改变传统的软件测试流程,提高测试效率,并预测这些技术的未来发展。通过分析当前测试领域面临的挑战和机遇,我们将深入了解AI和自动化技术如何在缺陷检测、测试用例生成、性能监控等方面发挥作用,同时评估它们对测试工程师角色的影响。
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
744 0
|
中间件 数据库

热门文章

最新文章