近年来云计算技术发展迅猛,银行业为应对业务量增长和快速创新的挑战,逐步开展基于云平台的分布式架构转型。四川农信作为国家发展改革委等9 部门指定的第一批数字化转型伙伴行动倡议单位,全面实施智慧银行建设战略。在转型过程中,逐步推进基础架构由传统虚拟化向云平台过渡,于2020 年实现自有云平台「蜀信云」的成功投产,并配套运维理念和机制流程的转型,推动数据中心由传统的IT 成本中心向IT 服务中心、价值中心转变,提升IT 服务供给能力。本文基于四川农信在云平台资源管理过程中的模式探索与实践展开,对传统环境与云平台基础资源管理两种模式进行对比,希望为同业机构提供参考。
面临的挑战
近年来,随着开放平台虚拟化技术的发展,X86 服务器有了取代小型机乃至集中式存储的趋势,但基于传统虚拟化技术的基础平台仍然面临一些问题。
1. 设备选型标准不统一
X86 服务器竞品众多,配置灵活,缺乏适配标准,导致采购前需要花大量精力进行基于业务场景的资源测算,以评估机器配置与数量。
2. 部署分配效率低
传统虚拟化部署效率低,批量化部署配置复杂。部署规模受产品底层架构能力限制,单一集群数量往往在数十台左右, 难以形成大规模集群。同时,在存储和数据库虚拟化上仍存在显著的性能瓶颈,高并发、高I/O 场景仍然需要连接集中式存储并通过物理服务器承载的数据库。
3. 资源弹性伸缩自动化程度低
传统虚拟化无法实现资源的自动弹性伸缩,在应对“双十一”、春节等交易高峰时,需要提前预估并对业务系统依赖的硬件资源进行扩展。应用服务器、数据库服务器与负载均衡服务之间的联动扩展难以实现完全自动化,且高峰过后不便于回收,大部分时间因资源闲置而造成浪费。
4. 运维管理难度大
传统基础架构依赖大二层网络和VLAN 进行网络隔离,导致网络管理员和虚拟化管理员需要做大量协同配置,管理复杂。项目资源的生命周期管理由资源管理部门负责,项目组无法实现对资源的自主创建、自主管控、自主删除。资源管理部门疲于应付各个项目组的资源需求。
基于云平台架构的解决思路
云平台通过软件定义的方式更好地实现了计算、存储、网络、数据库等各类资源有效池化,真正实现了“资源共享,按需使用”。
1. 设备选型
X86 服务器选型方面,云平台带来的一体化解决方案以定制化的标准机型为主,以计算、存储、网络、数据库等产品大类形成设备的配置基线,产品大类下再根据具体用途形成更详细的规格,如存储类可按对象存储、文件存储、块存储做差异化的硬件配置。
2. 部署分配
云操作系统的安装部署过程遵循标准化、自动化原则,避免繁杂的手工配置导致部署出现的各类问题,同时显著提高了部署效率。
3. 资源弹性伸缩
云上资源“即开即用”,可定时或按需(如设置资源使用率阈值等方式)进行资源的自动伸缩,由此极大地提高了资源使用效率。
4. 运维管理
基础资源的分配实行“配额制”,各个项目团队(租户)在各自的配额内“自取自用”,自主管理资源的生命周期,将云平台运维人员从资源增删改查的重复劳动中解放出来。
云平台基础资源管理的落地实践
为了满足四川农信向分布式架构转型的需要,信息科技中心对比主流的分布式云平台产品进行了调研和测试,选择了有银行实施案例并经过大规模部署场景验证的原生云技术,构建涵盖IaaS、PaaS、DaaS、SaaS 多个层面,支持多活单元化部署,对包含分布式核心业务在内的143 个典型场景进行了技术验证,为蜀信云平台技术选型提供了充分的依据。
1. 设备选型
以云平台标准机型为主,不同规格的机型用于涵盖不同使用场景。根据我社需求的云平台组件范围,部署需要使用30种不同规格的机型,为了标准化管理与集中采购,我们要求云厂商对配置相近的机型规格进行整合,最终收敛为8 种标准服务器机型,用于我社专有云的部署。
为了在设备层面更加自主可控,避免由于贸易摩擦等不可抗因素造成部分国外芯片断供,进而导致设备无法正常生产供应,督促云厂商对国产芯片服务器进行兼容性测试验证,提供更多的可选择性。
2. 部署分配
(1)部署情况。四川农信“蜀信云” 一期建设使用近700 台X86 服务器,搭建了开发测试云和生产云两套独立的专有云平台。开发测试云由200 余台服务器组成,支撑各类智能项目的开发、测试、产品迭代;生产云由400 余台服务器组成,按同城站点级容灾要求,规划为两个可用区,分别部署在自建数据中心与租用机房。
同一可用区内,云服务(如虚拟机、对象存储、关系型数据库等)均遵循高可用原则,以集群方式部署,提供同一服务的多台服务器散布到不同的机柜中, 避免单机柜掉电造成服务不可用。随着未来新建数据中心的落成,四川农信将逐步演进为“三地四中心五节点”的异地容灾架构。
目前,智能渠道、智能决策、智能贷款、智能营销和开放银行等系统已经正式上云投产运行,影像平台、新金融工具准则等系统即将部署上云。
(2)资源隔离。为满足多法人业务架构下的业务运营需要,蜀信云通过云平台多租户能力,将省联社与行社区分为不同租户,采用多级“组织”结构以及“资源集” 的管理方式实现资源的分组与隔离。蜀信云中,一级组织为“省联社”,其下划分为“生产”“准生产”“开发”等二级组织。同一级组织下的不同二级组织通过VPC 实现网络隔离。在实现了生产与测试等环境的隔离之后,蜀信云还提供了 “资源集” 的隔离功能,为每一个上云项目创建唯一对应该项目组的资源集,以此实现同一环境下不同项目组间的资源隔离。
3. 弹性伸缩
云平台服务的伸缩主要体现在云上虚拟机的弹性伸缩和对象存储的弹性容量。以云服务器弹性伸缩为例,首先创建弹性伸缩组,将一部分云服务器加入到弹性伸缩组,统一对外提供服务;然后配置伸缩任务来实现实际业务中云服务器的弹性伸缩,横向扩缩容。伸缩任务的类型可以是定时任务或动态任务,当业务峰值的时间点较为固定或可较为准确地预测时,可以通过配置定时伸缩任务,在预期的时间自动执行伸缩组扩容;当业务的峰值时间点不太能准确预测时,可以通过配置动态任务或告警任务,当云服务器资源使用率达到一定阈值后,自动执行伸缩组扩容。同理,在使用率低于一定阈值时自动触发减少伸缩组中云服务器的数量,最大程度地提升资源使用效率。
4. 运维管理
(1)运维组织。相对于传统架构的运维管理,云平台的运维管理特征是需求数量大、频度高、实施周期短,呈现出敏捷、高效的互联网IT 运维特征。既需要满足传统银行业务稳定可靠的需求,又要满足互联网金融行业快捷灵活的特性。四川农信一方面从社会和校园招聘合适人员,另一方面从传统运维团队中抽调有经验的工程师,与厂商驻场服务支持人员组成运维团队,共同参与到云平台的建设、维护工作当中,不断学习汲取厂商的运维经验。逐步从观摩、咨询,到参与规划、讨论, 到实际上手制定变更计划、操作手册,制定运维规范,并持续提升自主运维能力。
(2) 资源管理。云平台资源通过CMDB 进行生命周期管理,及时掌握资源使用量和预估未来资源水位;项目资源以资源集分隔,在资源集维度进行配额管理, 实例规格受配额约束,避免资源分配虚高造成浪费。
5. 落地过程中需要重视的其他问题
首先,集中架构向分布式架构转型。分布式架构相对于集中式架构更注重应用系统部件的解耦,以服务无状态为设计原则,大量采用容器化部署的微服务架构实现敏捷开发。在集中式架构下技术栈相对单一,注重从业人员的技术深度,而在分布式架构下,技术栈激增,各种开源框架及流派,更要求从业人员的技术广度,由此带来转型过程中原有人员技术力不足的问题,需要大量的知识转移。同时由于技术迭代迅速,难以沉淀形成有效的知识库, 常常需要见招拆招。
其次,公有云向专有云输出。在运维平台建设方面,云服务商的原有框架侧重跨行业的通用性设计,与银行业既有运维模式存在一定适配性差异,因此还需要双方深入探讨,统筹构建,在多个层面充分调研运维管理需求,不断融合改进,以期实现更加精准、行业适配度更高的一体化运维管理平台。
展望
现阶段,我社云上业务系统正相继投产运营,云平台资源管理与传统业务的资源管理仍在不断磨合,管理模式和理念还需要适应、优化和改进。
云平台在资源快速供给、弹性伸缩、自动化智能化管理维护等方面,还有巨大的潜力有待开发。未来,我们将通过合理分配、资源整合进一步降低IT 成本,为构建三地四中心五节点的弹性容灾架构做好技术储备,进一步为全省提供更加便捷和普惠的金融服务。