如何做数据库自动化运维

简介: 【5月更文挑战第5天】IT运维中的DBA面临诸多挑战,包括库表设计规范落地困难、SQL审核繁琐、数据提取需求频繁、资源管理和监控复杂。为解决这些问题,引入数据库自动化运维平台至关重要。该平台实现SQL审核自动化,确保语句规范和安全,支持数据提取的自助服务,强化元数据管理,提供一键资源部署,并进行全面的数据库监控。这样,DBA的角色转变为平台管理者,提高效率,规范化流程,减轻工作负担。

IT运维团队的日常工作往往都比较琐碎,DBA群体则尤为突出。在大多数情况下,DBA不是在修数(修改数据)就是在提数(提取数据),而且要花很多时间去沟通,不难想象一个SQL脚本在DBA和开发人员之间反复修改和审核的场景,其根本原因在于数据订正没有一个标准化的流程,而这样的标准化流程需要一个自动化的平台来做强有力的支撑。结合实际经验,DBA工作大概有5个方面的痛点。

一、DBA痛点

1、库表设计规范的落地

自动化运维的一个前提在于标准化,库表设计及SQL语句标准化无疑是数据库团队标准化梳理中最为关注的内容,比如命名规范、表设计规范、字段设计规范、索引设计规范以及SQL使用规范等,标准确立之后,如何进行标准化落地也是一项难题。通常情况下由开发或测试人员将SQL语句提交给DBA,DBA会通过人工分析的方式验证语句规范性、合法性和执行性能等,随着标准化的规范越来越多,待审查的SQL语句越来越多,检查的成本也越来越高,这在无形之中间接造成DBA推行的规范越来越多,验证工作也越来越复杂,久而久之,规范的约束力就很难保障。

2、SQL语句审核

人工审核很难在大量的SQL脚本中发现潜在的问题。像多字符或少字符、半角或全角等完全取决于“视力”好坏的问题着实很难发现,更深入的问题就更不容易被发现了,例如添加已存在的字段,或删除不存在的字段等。如果操作失败,想要回滚也很麻烦,因此每当生产环境要执行SQL脚本时,DBA都会再三确认,小心翼翼地执行每一个操作,因为数据回滚的成本很高,或者有些脚本执行后根本不敢回滚,只能一条道走到底,通过修数解决问题,但这又会引出另外的问题。

此外,SQL的版本控制也是一个问题。DBA团队希望在测试环境执行的脚本与将在生产环境执行的脚本完全一致,但如果没有科学的流程和工具,很难实现。多个环境之间执行的SQL版本不一致是常态,若完全一致极有可能导致一些不确定的后果。所以,希望SQL审核是一个全自动化、纯线上、强约束力的操作。

3、数据提取

在业务发展初期,提数的需求尤其多,原因在于此时业务对应的运营系统还没来得及建设,遇到问题就得查库,在没有相关的自动化平台支撑的情况下,DBA很大一部分人力资源都得耗在这上面。

4、资源管理

量变引发质变,对于业务规模相对较大的企业,即便是资源管理这样的小事儿,对DBA来说也可能演变成一件头疼的琐事。以数据库的创建为例,此类操作本身并不复杂,但考虑到对不同版本以及不同容错模式的支持,加之随着业务规模的扩大,重复性的资源创建等,资源的频繁创建和分配将是常态,若采用人工管理的话,成本投入高不说,也很“费”人,所以通过自动化的方式对资源进行管理很有必要。

5、监控的需求

数据库监控也存在多种维度:从资源存活性角度来看,我们需要对数据库进程进行监控;从数据库性能角度来看,我们需要对事务的执行状况以及吞吐量进行监控;从SQL执行的角度来看,我们需要对慢SQL进行监控;从容量的角度来看,我们需要对数据库的表空间进行监控等。

数据库自动化运维以解决DBA的实际痛点为主,主要包括了SQL语句审核的自动化,数据提取的自动化,数据库元数据的系统化管理,以及数据库资源的创建、监控等。

二、数据库自动化运维

1、自动化SQL语句审核

自动化SQL语句审核完成了从人工操作到自动化的转变。它通过流程来规范审核的过程,底层则是通过相应的中间件来对SQL进行检查和约束,实现对关系型数据库(如MySQL、Oracle)的SQL语句自动化评审和校验。


SQL审核的流程由开发人员发起,请求一经提交,审核平台就会自动检查提交的SQL是否符合规范,如果不符合,那么提交就会失败,并提示用户失败的原因。提交成功之后,会生成相应的审核记录,由具备权限的DBA审核。DBA会重新通过自动审核的方式来进行审核,当然也可以人工审核,当审核确定通过之后,审核订单的状态也就变成已通过,此时可以选择直接执行,也可以由请求发起者来自己执行。这里的执行者没那么重要,原因在于SQL已经通过双重检查,满足执行要求,同时,SQL执行完成之后,也会自动生成相应的回滚语句。


在整个SQL语句审核的过程中,多数情况下,DBA需要做的仅仅是在审核完成之后,点击“XXX”按钮,令审核订单变成通过状态。整个过程是全线上操作,便捷度和执行效率都非常高,真正做到了SQL审核的自助化,使安全性和可靠性得到有效保障,同时SQL规范也能顺利落地,给DBA的工作开展带来极大的便利。


2、关于数据提取

关于数据提取,首先想到的是平台化的解决方案,即通过Web平台来完成数据库的查询,这本身并不复杂,更重要的需求在于权限的控制以及数据查询的脱敏。

  • 权限控制。一方面是数据库账号的权限,对于数据提取来说只能是只读,且预先已经由DBA配好,不需要用户关注;另一方面针对权限控制的逻辑,通过平台来进行库和用户角色的关联,就能实现应用负责人只能对所使用的库进行查询。
  • 数据脱敏。可以考虑采用动态脱敏的方式,即对SQL查询语句进行解析,识别出敏感字段,然后通过替换函数来改写SQL。敏感字段的匹配则通过维护敏感字段的字典表实现。该表由业务部门自行在平台上进行字段添加维护,由DBA进行管理,以保证敏感字段的维护比较完善。


3、元数据管理

针对数据库自动化运维,主要从几个维度进行了配置信息管理,分别是机房、主机、业务、集群、实例、库等。通过这些信息能够比较容易地构建出数据库的物理部署拓扑以及业务对数据库的依赖关系。一方面这些信息在故障关联分析上能发挥较大的作用,另一方面也为后续的自动化运维提供了数据基础。


4、资源的一键部署

通过数据库运维平台实现一键创建适配不同版本、不同容错机制的数据库,例如单机/主从/多主模式,极大地提高了生产力,缩短了交付周期。传统运维模式主要通过人工方式创建数据库,效率低下,执行过程高度依赖于运维人员的个人经验,且重复性的运维工作本身是常态化的;脚本运维模式虽然能够解决人的问题,但难以管理;而平台化的方式则能将类似于数据库创建的操作带到Web平台上来,从而实现一键部署,也使操作体验得到进一步提升。


5、数据库监控

对数据库的监控主要从系统存活、性能以及容量三个方面考虑。系统存活监控主要通过对数据库进程的定时探测完成,获取探测结果后,通过部署在服务器上的代理将结果上报到自动化平台。数据库性能监控则主要通过执行数据库内置的指令来查询QPS、TPS、并发数、连接数等监控指标,慢SQL则主要通过日志来进行分析,同样通过代理的方式将相关指标上报到管理平台来进行聚合、图形化展示、分析等。容量监控则主要通过周期性查询MySQL information_schema表来进行总体统计、分析。通过数据库运维平台进行监控的优势在于监控指标丰富,可定制化程度高,同时具备较高的可配置性图形化展示以及大屏监控,能够进行周期性的趋势预测。


三、总结

  1. 建设数据库自动化运维平台的初衷非常简单,想简化DBA的工作,解放DBA。数据库自动化运维平台除了功能囊括各项日常操作,更是面向数据库运维的综合性的解决方案:一方面,对数据库运维的能力进行了统一封装,提高了操作标准化程度,也极大程度地提高了效率,并且通过流程审批的方式来将这种能力赋予资源请求者,具体的执行过程对用户来讲是透明的,由平台来保证;另一方面,DBA通过数据库管理平台将自身的角色从一个最终执行者转换为平台的管理者、审核者,规范了流程。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
89 4
|
3月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
72 4
|
7天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
21 1
|
7天前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
25 0
|
2月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
104 1
|
2月前
|
运维 监控 关系型数据库
数据库管理中的自动化运维:挑战与解决方案
数据库管理中的自动化运维:挑战与解决方案
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
66 4
|
3月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。