民生银行核心分布式改造实践分享

简介: 在没有分布式技术之前,国内银行的核心系统面临着很多挑战。以民生银行为例,2013年的时候每天交易量约1800万笔,整个项目的硬件和运维投入达到1.1亿多,成本非常高昂。中国民生银行总行信息科技部总经理牛新庄做了题为《民生银行核心分布式改造实践分享》的演讲,主要分享民生银行近几年采取的核心系统分布式改造成果。

摘要:在没有分布式技术之前,国内银行的核心系统面临着很多挑战。以民生银行为例,2013年的时候每天交易量约1800万笔,整个项目的硬件和运维投入达到1.1亿多,成本非常高昂。中国民生银行总行信息科技部总经理牛新庄做了题为《民生银行核心分布式改造实践分享》的演讲,主要分享民生银行近几年采取的核心系统分布式改造成果。

民生银行分布式核心架构

960125d6d16ae31db20d8344e6332936b7ed1e16 

民生银行的分布式核心架构是金融行业的一个标杆,分布式改造之前做测试的时候,每秒峰值最高也只能达到7800个tps,但是现在用这种横向扩展的方式,每秒轻轻松松就可以达到2~3万tps,不仅降低了成本,而且还可以随时横向扩展。事实上技术上的改造也是银行的技术架构的转移,这个转移反过头来又会去影响银行业务的发展。渠道的分布式系统是非常简单的,但是核心的分布式改造是非常难的,目前民生银行的系统的核心分布式改造非常成功,已经稳定运行了好几个月,银行系统的核心分布式改造方案是可行的,而且银行系统的核心分布式改造也是将来一种技术改革的趋势。

8926e428327c2597fa9c099e47591dba5a60295c 

分布式核心应用分层架构基本上可以分为四层,最上面这层叫做服务治理层,在这层上民生银行采用的是阿里云的Dubbo服务。民生银行在2013年与阿里云签订了协议,阿里云将Dubbo开源给民生银行,民生银行在Dubbo上做了改进以适应银行的金融场景。第二层叫服务组装层,第三层叫原子服务层,最后一层是数据库层。在应用层是服务治理的能力,过去银行在讲敏捷开发的时候,最困难的地方在于微服务的治理。这在传统的系统架构上面是很难治理的,也导致了系统的开发很难复用,但是民生银行这一次通过分布式化把服务治理好了以后,很多服务可以重新复用,无形之中能快速的迭代开发,包括在数据层和基础设施层。

345cb720fcf790ccebf27b04360e95c5410335cc 

整个分布式技术平台包括的功能有:

1、分布式数据库访问。一个理想的数据库架构,其实最开始设计的时候就应该考虑很多后面的事情,但是大部分银行应用迫于业务的压力而匆匆的上线,导致后期很难修改,所以在数据库层面,民生银行进行分库分表,读写分离。

2、分布式事务。在分布式事务上面,民生银行是基于可靠消息的最终一致性和基于冲正模型的反向处理,来保证数据库可靠运行。

3、分布式服务框架与服务管控以及第四分布式批量作业调度。这是金融行业与传统的行业不一样的地方,在一个多并发的情况下,分布式的消息处理能力是最关键的,之前民生银行试了很多开源的框架,但是在压力测试下,都不满足民生银行的要求,因此民生银行重写了一套专有的批量作业调度的框架。

还有分布式配置管理、消息中心、分布式缓存,交易幂等性、统一冲正,全局系列的核心功能,这些所有的核心因素集在一起,构建了分布式的技术核心平台。

8e2eb686e111c02c15159302bdd737c440c995b1 

在分布式的技术架构的设计上面,有应用的分布式和数据库的分布式。通常大家在讲分布式的时候,有的是在底层数据库上实现分布式,有的是在应用层实现分布式。因为银行系统的业务在很多时候需要靠业务逻辑,需要保证应用的可靠运行,但是底层也需要分布式改造,所以民生银行系统的核心架构在应用层和数据库层都实现了分布式。在应用的分布式上,首先在服务接入层实现了服务路由及管控能力,支持服务与数据单元化部署,然后在分布式服务层,建立分布式服务框架,集成分布式消息及批处理框架能力。在数据的分布式上,首先在分布式数据库层实现分库分表的数据水平扩展能力,然后在DevOps层面上建立分布式运维基础能力,支持分布式应用的持续集成和部署。

分布式建设中攻克的难点

民生银行在进行分布式改造的时候,遇到了很多难点,这些难点包括:

1、在服务接入的时候技术难点

包括服务网关、访问控制、服务限流、交易幂等性等,系统需要提供服务的统一接口,并将外部请求路由到相应服务;需要提供细粒度服务访问安全控制,确保系统的安全生产运行;提供多维度服务限流,有效的应对瞬间爆发的高并发访问;支持交易幂等性,防止同一笔交易重复处理。

c8771a289d642727fa74974e3c44d4583dbb07e1 

2、平台应用技术难点

包括服务框架、配置中心、消息中心、批处理框架等。需要攻克这些难点,提供面向远程过程调用的服务框架和面向消息通信的消息中心,解决分布式环境下大量应用节点配置管理和变更复杂的问题,提供应用于数据分布式之后批处理作业开发与运行的机制。

3、配置中心技术难点

主要解决配置分发时的时延控制和多节点的一致性控制。

9b081cf3c9378ae6ab4ca4c3932890928f1768af 

4、数据访问的技术难点

解决分布式数据访问问题,实现数据库水平扩展,完成分库分表、读写分离的SQL自动路由,且对应用透明,性能高。解决分布式运维问题,支持数据库分表后的应用数据运维支持。

5、应用分库分表的技术难点:

数据库层支持横向扩展,尽量避免分布式事务,应用透明,降低运维复杂度。

6、一致性保证机制:

14f338e733e1ccbfc17f948790b7259dc8a495e8 

充分应用微服务和组件化的设计思想,充分解耦应用,最大程度避免分布式事务,在幂等一致性上由服务提供方实现服务处理的幂等性,避免重复提交事务。应用通过冲正、对账、一致性检查等补偿手段确保业务完整性和最终一致性。采用两阶段提交实现分布式的强一致性。

6、分布式架构运维支撑体系

81117299166d25370fcbc809dc08ac7267814859 

以民生银行为例,在核心分布式系统上,应用和数据分散,服务层次、调用关系和系统状态复杂,设备多、应用多、服务多、配置多,造成核心分布式系统非常难以运维。民生银行实现了服务治理、分布式管控平台、运维视点、集中监控平台、分布式DevOps平台、灾备自动化指挥平台、交易监控平台、实时链路分析、运维架构可视化、日志分析等主要功能。

c773a2078e93a274dcc73e50beb24058e75be854 

打造了分布式DevOps平台,实现操作自动化,主要功能包括:快速的启停时间,实现秒级流量切换;灵活的部署方式,可快速部署应用、主机、集群和机房;可信的部署结果,自动对集群、应用进行健康检查。

分布式架构实施建议

192c59b0d66c503d412bee17cbed820155ea9326 

民生银行认为系统总体改造要点及路径需要经历三个阶段:

1、应用架构的X86化改造,目标是开发统一的分布式微服务框架,实现应用无状态化,数据集中,统一管控。

2、云化基础设施改造,实现数据与业务分离,实施业务去状态化改造,并将数据层迁移到云化基础设施,建立云平台,存储计算虚拟化,数据库分布式部署。

3、云化服务,打造开放的服务能力平台,抽取公告技术服务能力,统一数据处理,全面部署X86集群,减少对数据层逻辑依赖,构建公告数据处理。

ae5df0de5ef4aa0a7ae8b6d39a33741e7c0d606f 

另外在应用设计上面,总则是进行垂直水平切分,垂直切分优先,并尽量拆分成流水型应用和状态型应用,并将状态型业务集中下沉。目前民生银行已经把直销银行应用到核心系统之上了,运行效果非常好,现在正在计划把其他的例如网银、手机银行等系统全部采用这样的核心分布式进行改造。

本文由云栖志愿小组黄小凡整理

目录
相关文章
|
2月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
104 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2月前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
|
3月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
3月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
149 4
|
4月前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
115 8
|
6月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
7月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
148 1
|
7月前
|
机器学习/深度学习 人工智能 负载均衡
【AI大模型】分布式训练:深入探索与实践优化
在人工智能的浩瀚宇宙中,AI大模型以其惊人的性能和广泛的应用前景,正引领着技术创新的浪潮。然而,随着模型参数的指数级增长,传统的单机训练方式已难以满足需求。分布式训练作为应对这一挑战的关键技术,正逐渐成为AI研发中的标配。
253 5
|
7月前
|
存储 Kubernetes 监控
深入浅出分布式事务:理论与实践
在数字化时代的浪潮中,分布式系统如同星辰大海般浩瀚而深邃。本文将带你航行于这片星辰大海,探索分布式事务的奥秘。我们将从事务的基本概念出发,逐步深入到分布式事务的核心机制,最后通过一个实战案例,让你亲自体验分布式事务的魅力。让我们一起揭开分布式事务的神秘面纱,领略其背后的科学与艺术。
111 1
|
7月前
|
Go API 数据库
[go 面试] 分布式事务框架选择与实践
[go 面试] 分布式事务框架选择与实践

热门文章

最新文章