混沌工程平台 ChaosBlade-Box新版重磅发布

简介: 故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos 提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。

混沌工程是什么?


在2020.11.25 AWS发生了服务大面积故障,造成了多个云产品服务受影响,不到一个月的时间内谷歌发生了那年的第三次大规模宕机,造成了波及20亿用户,损失170万美元的巨大损失。

系统架构经历了单机 到 分布式,再到现在的云原生架构,其复杂度不断上涨,问题定位的难度也随之上涨。面对随时都可能发生的故障,有没有什么的办法能很好解决这个困境。

混沌工程(Chaos Engineering)在分布式系统上进行实验的学科,通过主动注入故障的方式,提前发现系统的薄弱点,推进架构的改进,最终实现业务韧性。从而避免故障在线上运行环境上发生。

image.png

这里拿云原生架构来举例说明,为什么混沌工程能解决系统架构中存在的问题。云原生架构原则和混沌工程原则是可以找到对应关系,以服务化原则说明,服务化原则其根本就是服务如何治理的问题,也就是判断上下游服务之间强弱依赖关系的问题。通过混沌工程,可以通过将请求定位到具体机器,再缩小到具体机器上的应用,不断最小化爆炸半径,通过在应用之间注入故障,判断上下游服务是否正常,来判断其强弱依赖关系。

image.png

混沌工程的目标是实现韧性架构,这里包含两个部分:韧性系统和韧性组织。韧性系统具有冗余性、扩展性、不可变基础设施、无状态应用、避免级联故障等。韧性组织包含高效交付、故障预案、应急响应机制等。高度韧性的系统也会出现预期之外的故障,所以韧性的组织能弥补韧性系统缺失的部分,通过混沌工程构建极致的韧性架构。

image.png

混沌工程就是通过主动注入故障的方式,提前发现系统的薄弱点,推进架构改进,最终实现业务韧性。引入混沌工程对于不同职能的人而言,其业务价值有所不同:

  • 架构师:能帮助其验证架构的容错能力
  • 开发/运维:能提高其故障的应急效率
  • 测试:帮助其提早暴露线上问题,降低故障复发率
  • 产品/设计:提示客户使用体验

image.png

如何落地混沌工程?

对于企业或业务如何对混沌工程进行落地?有无工具或平台能帮助其快速落地?

ChaosBlade 是一款遵循混沌实验模型的混沌实验执行工具,具有场景丰富度高,简单易用等特点,支持多平台、多语言环境,包括Linux、Kubernetes和Docker平台,支持Java、NodeJS、C++、Golang 语言应用。支持200多个场景,3000多个参数。是一款用于端侧的故障注入工具,但在业务进行落地时,会存在以下几个问题:

  • 故障注入过程如何可视化?
  • 如何同时对多个集群或主机进行故障注入?
  • 如何拿到整体演练的统计信息
  • ......

所以在ChaosBlade之上还需要平台层,对混沌工程执行工具进行管理与演练编排。

image.png

ChaosBlade-Box是面向多集群、多语言、多环境,开源的云原生混沌工程控制台。

开源平台和注入工具的整体架构如下,主要包括几个组成模块:

  • ChaosBlade-Box Console :混沌实验用户界面
  • ChaosBlade-Box:Server后端服务,主要包括演练场景的编排和安全管控、混沌工程工具部署(ChaosBlade、LitmusChaos...)、支持探针管理和多维度实验
  • Agent:探针,主要有(ChaosBlade-Box)Server端进行建联并保持心跳、上报k8s相关数据、演练命令下发通道等功能
  • ChaosBlade:部署在业务的主机或k8s集群内,在端侧进行演练的工具

image.png

新版ChaosBlade-Box平台是一个面向多集群、多环境、多语言的云原生混沌工程平台。支持国际化中英文切换,支持全局命名空间,使得同一用户可根据自己需求,设置不同的全局命名空间,如:测试空间、沙盒空间和线上空间等。提供自动化的工具部署,简化工具安装步骤,提高执行效率。平台支持不同环境的探针安装和演练,如主机和Kubernetes,其中Kubernetes环境下支持 Node、Pod、Container维度下的演练。在Kubernetes环境下会自动收集集群内的Pod相关数据,并在应用管理中进行统一管理,这样简化用户演练查询步骤,无需去集群内查看要演练应用的Pod名或Container名。并支持一键迁移到企业版,按需将社区版的演练数据同步到企业版。

image.png

image.png

image.png

image.png

以下是在新版ChaosBlade-Box平台上进行一次演练的全过程,支持顺序执行、阶段执行两种流程编排,顺序执行指的是多个演练场景依次生效,阶段执行值得是多个演练场景同时生效。通过多种安全策略保证演练得到恢复,如手动处罚和自动停止,自动停止通过在演练配置的时候设置超时参数来进行配置,这样即便平台和探针(Agent)失联,无法进行手动停止时,也能在超时时间到达的时候,自动恢复故障。

image.png

image.png


新版优势是什么?


此次发布的新版相较于老版,前端界面和企业版进行统一,简化使用习惯的切换成本,更为完善的国际化中英文切换,并支持全局命名空间的切换;后端提供了更为流畅的演练编排,完善的应用管理,并加强了对探针的管控,并支持一键迁移到企业版;加强了探针的功能,提供了更加完善的API,支持多环境部署且支持在不同环境作为演练通道,支持自动安装卸载,并收集并上报数据简化演练流畅。

image.png


相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
Kubernetes 容灾 测试技术
ChaosBlade详细介绍
ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,包含混沌工程实验工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通过混沌工程帮助企业解决云原生过程中高可用问题。【2月更文挑战第11天】
2410 12
|
Kubernetes 前端开发 Cloud Native
混动工程平台 ChaosBlade-Box 新版重磅发布 | 学习笔记
快速学习混动工程平台 ChaosBlade-Box 新版重磅发布
混动工程平台 ChaosBlade-Box 新版重磅发布 | 学习笔记
|
7月前
|
JSON API 开发者
1688按关键词搜索商品的API接口技术指南
本文介绍如何使用1688开放平台API实现商品关键词搜索,涵盖API概述、权限申请、调用步骤、Python代码示例及注意事项,助力开发者高效集成商品搜索功能,适用于电商自动化、价格监控等场景,内容基于官方文档,确保准确可靠。
953 0
|
Kubernetes 测试技术 Perl
混沌测试平台 Chaos Mesh
混沌测试平台 Chaos Mesh
615 1
|
10月前
|
人工智能 自然语言处理 运维
唯一!飞天助理Apsara Copilot通过信通院L4级评估认证
随着全球AI技术跨越式发展,行业云平台也在持续推进新一轮技术迭代,正以AI为引擎重塑云服务与运营的新范式。 在7月22-23日举办的2025可信云大会上,阿里云飞天企业版顺利通过中国信通院《人工智能驱动的云平台智能助手能力评估》并获得L4级,也是业界首个获得该等级评估认证的产品。 同时在会上,阿里云还作为核心参编单位,携手中国信通院及多家产业单位共同发布了行业首个《人工智能驱动的云平台场景能力要求》系列标准,为智能时代云平台运营能力建立基线。
469 0
|
存储 Java 开发者
Chaosblade
Chaosblade 是一个开源的混沌工程实验工具,用于在分布式系统中模拟故障和异常情况。在 Chaosblade 中,你可以使用规则来限制注入操作的条件。
1263 5
|
关系型数据库 MySQL Linux
Linux 安装 mysql 【使用 tar.gz | tar.xz安装包-离线安装】
在Linux系统中使用tar.xz压缩包安装MySQL数据库的详细步骤。包括下载MySQL压缩包,解压到指定目录,创建mysql用户和组,设置目录权限,初始化MySQL,配置my.cnf文件,启动服务,以及修改root用户密码。此外,还提供了如何设置Windows远程登录MySQL服务器的方法。
Linux 安装 mysql 【使用 tar.gz | tar.xz安装包-离线安装】
|
Kubernetes Java 分布式数据库
ChaosBlade权限问题之报错如何解决
ChaosBlade 是一个开源的混沌工程实验工具,旨在通过模拟各种常见的硬件、软件、网络、应用等故障,帮助开发者在测试环境中验证系统的容错和自动恢复能力。以下是关于ChaosBlade的一些常见问题合集:
|
Kubernetes 安全 Go
对于阿里开源混沌工程工具chaosblade-box-agent心跳报错问题的分析与解决
摘要: 本文记录了一个由chaosblade-box平台后台发现的偶发的chaosblade-box-agent不发送心跳的问题,从报错日志入手,结合chaosblade-box-agent源码进行分析,最终解决问题并修复打包的过程。
971 7
|
负载均衡 Java 开发者
Spring Cloud:一文读懂其原理与架构
Spring Cloud 是一套微服务解决方案,它整合了Netflix公司的多个开源框架,简化了分布式系统开发。Spring Cloud 提供了服务注册与发现、配置中心、消息总线、负载均衡、熔断机制等工具,让开发者可以快速地构建一些常见的微服务架构。

热门文章

最新文章