分布式服务架构下的混沌工程实践
本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送“混沌工程”,获取分享PPT)
混沌工程的定义、价值、原则和流程;
混沌工程如何在企业中落地,以及 ChaosBlade 和混沌实验平台 AHAS Chaos 架构设计;
结合两个具体案例介绍了分布式服务下的混沌工程实践;
大家好,我是来自阿里的肖长军,今天给大家分享混沌工程在分布式服务架构下的具体实践。
阿里云应用性能管理(APM)产品-应用实时监控服务(ARMS)技术解密 资料下载
直播大纲
1. 应用性能管理(APM)背景介绍
2. 分布式链路追踪的现状与使用场景
3. ARMS分布式链路追踪的技术实现
4. 最佳实践
(1) 全息排查+场景链路(2) 前端监控与应用监控融合(3) ARMS与K8S的融合与实践
专家介绍
阳其凯(逸陵),阿里巴巴高级开发工程师,2016年加入阿里巴巴Eageleeye团队,多年实时计算平台与APM产品开发经验,目前主要负责云产品业务实时监控服务(ARMS)与链路追踪(Tracing Analysis)的研发工作。
如何优雅地上报前端监控日志
> - 页面在用户那里运行,如果10%的用户页面出现问题而自己本地没有办法重现?
> - 如何先一步了解到前端出现的问题,而不是等用户反馈?
> - 能不能像查看服务端日志一样来定位前端页面运行的问题?
前端在业务复杂度越来越高的情况下,本地即使做了充分的测试,依照[caniuse](https://caniuse.com)做了很多兼容,依然无法让人放心页面能否正常运行或者运行得怎么样。
Arthas协助排查线上skywalking不可用问题
前言
首先描述下问题的背景,博主有个习惯,每天上下班的时候看下skywalking的trace页面的error情况。但是某天突然发现生产环境skywalking页面没有任何数据了,页面也没有显示任何的异常,有点慌,我们线上虽然没有全面铺开对接skywalking,但是也有十多个应用。
阿里云智能基础产品技术月刊2019年7月——永不停机的计算服务
ESSD可提供单盘高达100万IOPS的随机读写能力,相比SSD云盘分别提升了40 倍性能上限和降低了 70% 读写时延,为客户提供更高的性价比体验。在实际的业务场景测试下,以 MySQL 和PostgreSQL 为例,采用 ESSD 云盘可获得 3-4 倍的 TPS 性能提升。