发布模式

简介: 蓝绿部署通过两套系统(蓝/绿)并行,实现零停机发布与快速回滚;金丝雀发布逐步替换旧版本,降低风险;A/B测试则对比多版本效果,优化用户体验。三者各有适用场景,非万能方案。

蓝绿部署

蓝绿部署的目的是减少发布时的中断时间能够快速撤回发布

It’s basically a technique for releasing your application in a predictable manner with an goal of reducing any downtime associated with a release. It’s a quick way to prime your app before releasing, and also quickly roll back if you find issues.

蓝绿部署中,一共有两套系统:一套是正在提供服务系统,标记为“绿色”;另一套是准备发布的系统,标记为“蓝色”。两套系统都是功能完善的,并且正在运行的系统,只是系统版本和对外服务情况不同。

最初,没有任何系统,没有蓝绿之分。

然后,第一套系统开发完成,直接上线,这个过程只有一个系统,也没有蓝绿之分。

后来,开发了新版本,要用新版本替换线上的旧版本,在线上的系统之外,搭建了一个使用新版本代码的全新系统。 这时候,一共有两套系统在运行,正在对外提供服务的老系统是绿色系统,新部署的系统是蓝色系统。

蓝色系统不对外提供服务,用来做啥?

用来做发布前测试,测试过程中发现任何问题,可以直接在蓝色系统上修改,不干扰用户正在使用的系统。(注意,两套系统没有耦合的时候才能百分百保证不干扰)

蓝色系统经过反复的测试、修改、验证,确定达到上线标准之后,直接将用户切换到蓝色系统:

切换后的一段时间内,依旧是蓝绿两套系统并存,但是用户访问的已经是蓝色系统。这段时间内观察蓝色系统(新系统)工作状态,如果出现问题,直接切换回绿色系统。

当确信对外提供服务的蓝色系统工作正常,不对外提供服务的绿色系统已经不再需要的时候,蓝色系统正式成为对外提供服务系统,成为新的绿色系统。 原先的绿色系统可以销毁,将资源释放出来,用于部署下一个蓝色系统。

蓝绿部署只是上线策略中的一种,它不是可以应对所有情况的万能方案。 蓝绿部署能够简单快捷实施的前提假设是目标系统是非常内聚的,如果目标系统相当复杂,那么如何切换、两套系统的数据是否需要以及如何同步等,都需要仔细考虑。

BlueGreenDeployment中给出的一张图特别形象:

金丝雀发布

金丝雀发布(Canary)也是一种发布策略,和国内常说的灰度发布是同一类策略。

蓝绿部署是准备两套系统,在两套系统之间进行切换,金丝雀策略是只有一套系统,逐渐替换这套系统。

譬如说,目标系统是一组无状态的Web服务器,但是数量非常多,假设有一万台。

这时候,蓝绿部署就不能用了,因为你不可能申请一万台服务器专门用来部署蓝色系统(在蓝绿部署的定义中,蓝色的系统要能够承接所有访问)。

可以想到的一个方法是:

只准备几台服务器,在上面部署新版本的系统并测试验证。测试通过之后,担心出现意外,还不敢立即更新所有的服务器。 先将线上的一万台服务器中的10台更新为最新的系统,然后观察验证。确认没有异常之后,再将剩余的所有服务器更新。

这个方法就是金丝雀发布

实际操作中还可以做更多控制,譬如说,给最初更新的10台服务器设置较低的权重、控制发送给这10台服务器的请求数,然后逐渐提高权重、增加请求数。

这个控制叫做“流量切分”,既可以用于金丝雀发布,也可以用于后面的A/B测试。

蓝绿部署和金丝雀发布是两种发布策略,都不是万能的。有时候两者都可以使用,有时候只能用其中一种。

上面的例子中可以用金丝雀,不能用蓝绿,那么什么时候可以用蓝绿,不能用金丝雀呢?整个系统只有一台服务器的时候。

A/B测试

首先需要明确的是,A/B测试和蓝绿部署以及金丝雀,完全是两回事

蓝绿部署和金丝雀是发布策略,目标是确保新上线的系统稳定,关注的是新系统的BUG、隐患。

A/B测试是效果测试,同一时间有多个版本的服务对外服务,这些服务都是经过足够测试,达到了上线标准的服务,有差异但是没有新旧之分(它们上线时可能采用了蓝绿部署的方式)。

A/B测试关注的是不同版本的服务的实际效果,譬如说转化率、订单情况等。

A/B测试时,线上同时运行多个版本的服务,这些服务通常会有一些体验上的差异,譬如说页面样式、颜色、操作流程不同。相关人员通过分析各个版本服务的实际效果,选出效果最好的版本。

相关文章
|
1天前
|
安全 Java 数据安全/隐私保护
通用权限管理模型
本文介绍了ACL和RBAC两种常见权限模型。ACL通过直接为用户或角色授权实现控制,简单直观;RBAC则基于角色分配权限,支持角色继承与职责分离,更适用于复杂系统。还简要提及DAC、MAC、ABAC等模型,帮助读者建立权限管理的全局认知。
|
1天前
|
存储 缓存 运维
一场FullGC故障排查
本文记录了一次Java应用CPU使用率飙升至104%的问题排查过程。通过分析发现,问题根源并非外部流量激增或系统负载过高,而是由于JVM频繁Full GC导致。进一步借助JProfiler分析堆内存快照,定位到多个大对象(List<Map>)占用近900MB内存,造成老年代迅速填满。根本原因为将Excel数据以低效的Map结构加载至内存且长时间驻留。最终提出“治本”(移出JVM内存)与“治标”(精简数据结构)两类解决方案,并总结了从监控识别、工具分析到代码修复的完整排查思路,强调应关注JVM层面指标而非仅依赖机器监控。
 一场FullGC故障排查
|
1天前
|
SQL 监控 机器人
钉钉通知
本文介绍如何通过Java代码调用钉钉机器人API实现系统告警消息的实时推送。涵盖机器人创建、Webhook配置、PostMan测试及Java代码实现,并提供工具类封装、配置解耦等实战优化建议,确保高效稳定地发送告警信息。
 钉钉通知
|
1天前
|
消息中间件 物联网 测试技术
语音通知
适用于科技公司服务器及物联网设备异常时的语音告警通知。通过语音服务,可拨打电话并播放含变量的预设模板内容。需开通服务、申请资质与模板,支持API调用与回调查询,实现高效告警处理。
语音通知
|
1天前
|
SQL Dubbo Java
线程池:故障梳理总结
本文从故障与技术双视角剖析线程池类问题,总结数据库慢查询、连接池配置不当等常见故障案例,提炼出fast-fail、超时控制、流控背压等关键防护策略,助力开发者提升系统稳定性。
|
1天前
|
开发者
业务架构图
本文介绍了业务架构图的核心概念与绘制方法,涵盖业务定义、架构分层逻辑及业务架构图的三大核心要义:分层、分模块、分功能。通过医院案例解析,阐明如何将现实业务抽象为清晰的架构模型,并强调信息流设计与模块边界的合理性,助力客户理解与开发者协作。
 业务架构图
|
1天前
|
存储 缓存 监控
EFC&CTO:缓存引发数据不一致问题排查与深度解析
EFC客户端在NAS场景下因缓存版本号回退,导致读取旧数据并写坏文件系统。通过日志分析发现,慢请求致dv回退,buffer write时读入NULL覆盖正常数据。修复后测试通过,问题源于分布式缓存与pagecache协同异常。
 EFC&CTO:缓存引发数据不一致问题排查与深度解析
|
1天前
|
自然语言处理 fastjson Java
FastJson:大面积故障规避案例
本文记录了一次由Kotlin语法误用引发的FastJson反序列化严重故障。因将 `{}` 错误赋值给Java对象字段,导致FastJson解析时触发静态标记 `kotlin_error` 被置为true,进而使整个应用的Kotlin反序列化链路崩溃。问题隐蔽且影响广泛,凸显多语言混编下对语法细节掌握的重要性,并提醒开发者不可盲目信任框架,需重视灰度发布与代码审查。
 FastJson:大面积故障规避案例
|
1天前
|
Java 测试技术 API
从Google线上故障,谈灰度发布的重要性
2025年6月12日,Google Cloud因未灰度发布的配置缺陷导致全球服务中断7小时。本文分析其根因为空指针异常,并详解配置灰度发布策略,介绍基于Nacos的IP与标签灰度实现方案,强调灰度发布对系统稳定性的重要性。
 从Google线上故障,谈灰度发布的重要性
|
1天前
|
运维 NoSQL 测试技术
Redis:内存陡增100%深度复盘
本文复盘了一次Redis因大KEY和缓冲区溢出导致的故障。事故中,业务高峰时大KEY调用量激增,占满带宽,引发内存使用率迅速升至100%,最终导致Redis全面超时不可用。分析发现,虽有淘汰机制,但输出/输入缓冲区因客户端连接积压而暴涨,完全占用内存,使SET/GET命令无法执行。根本原因为缓冲区设计与流量控制不当,建议优化Key大小、合理配置缓冲区及加强压测与监控。
 Redis:内存陡增100%深度复盘