阿里赵林:阿里企业级分布式应用服务EDAS产品解密

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 2016云栖大会上海峰会于2016.1.20日在上海科技馆顺利举办。本文根据阿里高级技术专家赵林(花名:丹臣)在“云栖大会上海峰会”专场《“互联网+”架构及实践专场-企业级信息系统云化演进之路》中的演讲整理。赵林在演讲中主要为大家详细介绍了阿里企业级分布式应用服务器EDAS产品。

2016云栖大会上海峰会于2016.1.20日在上海科技馆顺利举办。本文根据阿里高级技术专家赵林(花名:丹臣)在“云栖大会上海峰会”专场《“互联网+”架构及实践专场-企业级信息系统云化演进之路》中的演讲整理。赵林在演讲中主要为大家详细介绍了阿里企业级分布式应用服务器EDAS产品。下面是演讲内容整理。

 

企业级分布式应用服务(EDAS,Enterprise Distributed Application Service)是一个以阿里中间件团队多款久经历练的组件产品作为核心基础,所组建的企业云计算解决方案。其充分利用阿里云现有的资源管理和服务体系,引入中间件整套成熟的分布式计算框架——包括分布式应用核心框架,分布式数据化运营,大型应用全生命周期管理等,以应用为中心,集成到EDAS平台上,帮助企业级客户轻松构建并托管分布式应用服务体系。

 

企业级分布式应用服务与传统IOE架构的区别

传统IOE架构


传统IOE架构

随着时间推移,在出现新业务时,开发人员有两种应对办法。

  • 在原应用上增加新业务,将原本较小的应用慢慢扩充成很大的应用;
  • 另起炉灶,重新创建针对新业务的新应用。

第一种只适用于业务较少的情况,而在新业务不断增加的情况下,增加新应用也就成了必须。而在这种传统架构中,新增的应用需要一一与原有的底层数据库相连,导致每个应用都需要连接多个数据库。

此外,在传统IOE架构中:

  • 每个应用彼此没有太大关系,按烟囱式排列,唯一的共通点在于都与底层的数据库相连;
  • 所能处理的应用个数通常比较少,从几个到几十个不等。

总结:在传统IOE架构中,每个应用都比较庞大,同时需要连接多个数据库;架构中的应用数量较少,应用与应用之间的关系简单。

大型分布式应用


大型分布式应用

  • 应用彼此间存在复杂的调用关系;
  • 架构中可管理的应用多,可能达到成百上千个应用。

其优点在于:这种架构具有良好的可扩展性;而缺点在于管理与运维比较困难,另外由于应用数量多,随着业务增长,应用服务器从十台增加到上百台上千台,这时业务系统故障与机器故障就一定会成为常态。

传统“中心化”系统与阿里的“去中心化”系统架构的区别

传统“中心化”(ESB)系统架构


传统中心化系统架构

 

  • 服务调用者与服务提供者通过企业服务总线相连接;
  • ESB成为瓶颈:无论在性能上还是成本消耗上,ESB都会导致瓶颈出现。

阿里“去中心化”系统架构


阿里“去中心化”系统架构

开发这个架构的初衷是为了支撑分布式应用,为了让整个业务系统的扩展没有瓶颈,只需按照业务发展需要进行扩展;上图是最早的雏形。后面为了完善该架构,又做了很多工作,下面将详细说明。

EDAS服务调用

服务接口可视化:让分布式应用不再是黑盒

在最初的架构中,由于看不到任何的数据或者发布了什么服务,开发人员也并不明确每个应用具体包含什么服务,这就像一个黑盒子,所有内容都是一团迷雾。


EDAS在线平台

将服务接口可视化之后,在应用启动时将自动完成服务注册,所发布和消费的服务可以在EDAS平台在线查看,所有内容一目了然。

EDAS服务调用的安全性


EDAS服务调用结构

普通框架是没有安全性可言的,任何人只要知道地址就可以通过服务接口随意进行调用。为此我们针对三种维度的安全性做出了控制:在发布、订阅和调用服务时必须使用合法的安全令牌(access key/secret key)。

  • 服务提供者在服务注册中心发布,需要权限AK;
  • 服务调用者获得服务提供者的IP,需要授权;
  • 服务调用者知道IP,需要调用时,需要正确的AK。

此外,授权数据会下发到服务机器中,避免造成性能瓶颈。

EDAS应用发布

传统集中式模式:


传统的应用包下载模式

 

l  应用包通过中间文件服务器下载,需受限于其网络带宽;

l  能够发布的机器数量较少

P2P流式应用包分发模式:


P2P应用包分发模式

 

  • 通过EDAS发布控制中心下载;
  • 类似P2P下载模式,可快速提供任何一个下载点;
  • 支持大规模应用集群发布。

效率对比

随着所发布的应用实例增多,两种发布方式的效率对比如下:


两种发布方式的效率对比

传统集中式(黄色):随着发布集群规模扩大,耗时急剧增长;P2P流式:采用EDAS燎原发布系统,随着应用实例的增加,发布的时间几乎保持不变。

EDAS扩容

EDAS提供简单方便高效的应用扩容服务。在传统模式中,扩容需运维或开发人员手动布置环境、安装GDP等等;而在P2P流式中,一键即可扩容,只要机器资源足够,在EDAS平台点击“应用扩容”即可完成。


一键扩容界面

EDAS数据化运营

立体监控服务


立体监控服务

EDAS监控服务三个层面的监控数据:资源、容器和应用。

  • 系统资源:负载、CPU、内存、 磁盘、网络
  • 容器:堆内存、类加载情况、线程池、连接器
  • 应用:响应时间、吞吐率、关键链路分析

其中:

系统资源监控


系统资源监控界面

以应用/单机的视角来对基础资源消耗进行监控:

  • 可以看到应用下所有节点的平均负载
  • 通过技术监控,及时发现问题
  • 可以配置报警规则,有异常时快速报警

 

容器监控


容器监控界面

实时采集容器运行的监控指标,为应用运行环境问题诊断提供依据:

  • 堆内存与非堆内存使用情况
  • 类加载情况
  • 线程运行情况
  • 连接器情况

 

应用实时监控


应用监控界面

监控服务接口的调用量,分布式系统服务的承载能力等,并将其数据化:

  • 监控所有服务接口、方法的实时调用情况,调用链的实时查询
  •  快速感知系统流量变化,找出系统瓶颈
  •  执行实时链路分析

服务综合治理

分布式应用的难点在于集成分布式应用一体化监控、数据化运营以及高效的服务治理。其中,服务有两种角色,服务提供者以及链路负责人。

服务提供者关心:

谁调用了我的服务? 在什么链路下调用,调用是否合理?调用趋势怎样?产生的瞬间峰值有多少?我的系统是否能支撑,是否需要扩容。

所能采取的应对措施:分组、限流、鉴权、压测。

链路负责人关心:

我依赖了哪些应用、哪些服务? 整个链路的依赖路径是怎样的? 哪些容易出错,哪些是链路的处理瓶颈? 这些依赖如果出错,会有什么影响?

所能采取的应对措施:捕获异常;降级:对于不稳定的服务,是否需要降级;开关:系统压力很大的话,需要关闭不必要的操作;优化:利用服务治理,对瓶颈进行优化。

鹰眼监控


鹰眼监控界面

阿里鹰眼监控平台能够提供应用的响应时间和吞吐量信息,并提供全链路分析功能,从而找出系统热点和瓶颈:

  • 完整记录所有故障
  • 准确定位故障源

所解决的问题:在开发者参差不齐的情况下,快速完成上层业务目标,完成开发任务;提供透明化的观察方式:快速找出对依赖的压力、易故障点与瓶颈点。


快速找出对依赖的压力、易故障点与瓶颈点

容量压测                


容量压测界面

自动计算前端的关键请求与后端机器数量的对应关系,针对机器是否需要加减进行预测:

  • 在真实线上的环境基础上,通过调整服务器权重,真实模拟压测情况,评估单机的最大服务能力,从而提供吞吐能力数据以供性能优化参考; 
  • 用自动化平台,相对科学的精确手段将服务能力数据化;

限流降级

容量是任何一个系统天然存在的上限。客观上讲,不管性能如何,都有可能在业务上超出预期容量。

限流是服务接口提供方对消费方的设置,降级则是服务消费方对服务提供方的设置。通过降级设置,对服务消费方进行保护,一旦超过某个时间,便允许强行断开。通过现有的能量对服务提供方进行保护,在出现超过流量最大能力的时候断开,避免将系统整个拖垮。

弹性伸缩


扩容界面

应用扩容规则和缩容规则一站式设置:根据CPU、LOAD、RT三个指标设置应用的自动扩容或缩容。

EDAS配置推送


大型分布式系统应用配置推送

  • 对大型分布式应用配置进行集中管理:修改更容易,通知更及时,配置变更也更安全; 
  • 对应用配置变更进行历史记录:让应用配置可以轻松回退到前一版本; 
  • 追踪应用配置推送轨迹:让配置推送所到达机器变得可视化;
  • 应用集群推送的规模更大、效率更高。

EDAS灰度系统


EDAS灰度系统

能够允许一部分用户使用新功能,一部分用户使用原有功能,再通过实际测试作出最正确的决定。在业务系统层面,让现有的系统可以平滑升级。

EDAS——世界级优秀PAAS平台


应用客户案例

 

  • 适用于各行各业;
  • 高性能、高弹性、高容错; 
  • 打造以应用为中心的平台服务,让开发人员专注于业务逻辑;
  • 构建360度的应用运维服务平台,集成各种运维管控工具。


2016云栖大会上海峰会回顾专题(含演讲视频):http://yunqi.aliyun.com/2015/shanghai/review.html

相关实践学习
使用DAS实现数据库自动SQL优化
本场景介绍如何使用DAS实现数据库自动SQL优化。
SpringMVC框架入门
Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。在使用Spring进行WEB开发时,可以选择使用Spring的SpringMVC框架或集成其他MVC开发框架,如Struts2等。 相关的阿里云产品企业级分布式应用服务 EDAS:企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是一个应用托管和微服务管理的 PaaS 平台,提供应用开发、部署、监控、运维等全栈式解决方案,同时支持 Spring Cloud、Apache Dubbo(以下简称 Dubbo )等微服务运行环境,助力您的各类应用轻松上云。产品详情: https://www.aliyun.com/product/edas 
相关文章
|
2月前
|
消息中间件 架构师 Java
阿里面试:秒杀的分布式事务, 是如何设计的?
在40岁老架构师尼恩的读者交流群中,近期有小伙伴在面试阿里、滴滴、极兔等一线互联网企业时,遇到了许多关于分布式事务的重要面试题。为了帮助大家更好地应对这些面试题,尼恩进行了系统化的梳理,详细介绍了Seata和RocketMQ事务消息的结合,以及如何实现强弱结合型事务。文章还提供了分布式事务的标准面试答案,并推荐了《尼恩Java面试宝典PDF》等资源,帮助大家在面试中脱颖而出。
|
7月前
|
消息中间件 分布式计算 中间件
秀出天际!阿里甩出的988页分布式微服务架构进阶神仙手册我粉了
秀出天际!阿里甩出的988页分布式微服务架构进阶神仙手册我粉了
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之如何配置cluster系统自动生成分布式参数
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
Cloud Native 数据管理 关系型数据库
【阿里云云原生专栏】云原生数据管理:阿里云数据库服务的分布式实践
【5月更文挑战第21天】阿里云数据库服务在云原生时代展现优势,应对分布式数据管理挑战。PolarDB等服务保证高可用和弹性,通过多副本机制和分布式事务确保数据一致性和可靠性。示例代码展示了在阿里云数据库上进行分布式事务操作。此外,丰富的监控工具协助用户管理数据库性能,支持企业的数字化转型和业务增长。
233 1
|
缓存 算法 架构师
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了
说在前面的话 分布式系统无处不在。 一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。 为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。 同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应
|
7月前
|
存储 监控 Windows
ABB 分布式控制系统 DCS紧凑型产品套件 紧凑型HMI
ABB 分布式控制系统 DCS紧凑型产品套件 紧凑型HMI
ABB 分布式控制系统 DCS紧凑型产品套件 紧凑型HMI
|
7月前
|
运维 关系型数据库 分布式数据库
PolarDB产品使用合集之在选择分布式数据库时,主要考虑是什么
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
7月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之如何在CPU服务器上使用PAIEasyRec进行分布式训练
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
SQL 关系型数据库 MySQL
Flink CDC产品常见问题之读分布式mysql报连接超时如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
7月前
|
存储 NoSQL Java
阿里面试官问我Redis怎么实现分布式锁
分布式锁一般有三种实现方式:
76 0

热门文章

最新文章