分布式数据库查询 | 学习笔记

简介: 快速学习 分布式数据库查询

开发者学堂课程【分布式数据库技术与实现分布式数据库查询】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/373/detail/4690


分布式数据库查询


目录  

. 查询种类  

. 阿里云 RDS 分布式系统


一.查询种类

分布式数据库系统的查询分为两类

1.  单节点类

是比较简单的,这只需要全局管理系统把请求分配到单一的节点,在单一的节点上面进行查询,直接返回结果,这类查询比较简单。

2.  跨节点类

跨节点查询是属于分布式数据库系统里面的业务的硬需求,大量的查询是需要通过从不同的节点取得数据,大量的查询是需要依赖于多个节点的数据,对于这类查询,为了保证最快的速度和对系统最小的消耗,在工程上会做不同的处理。


二.阿里云 RDS 分布式系统

1.查询下发

在阿里云 RDS 的分布式系统里,将查询分成以下几类处理,第一种处理叫查询下发,这一类查询主要是针对每个数据节点能够单独计算出一部分结果,如计算商品的总数,可以将计算总数这个请求发送到每个节点,每个节点只需要访问一个数字,而集中管理系统只需要做一个总和就完成,这类查询属于跨节点查询里最简单的一种。

2.结合不同节点间的数据

更复杂的查询是需要结合不同的节点之间的数据内容本身,这类请求要求把数据先汇总到一起,再做计算,由于分布式数据库系统的数据较大,如果将所有数据都汇总到一起,这个系统的数据量就会过大,易成为瓶颈。

因此需要对查询做改写,获取最小的数据分片,全局管理系统在接收到请求以后,需要根据查询的条件,将语句改写分发到不同的节点上,不同的节点拿到部分数据以后汇总,这种汇总在工程上又分成两种不同的操作:

集中到同一的节点

如取价格最大的前十个商品,则可以在不同的节点分别取到各自节点里面的最大值合并到全局管理系统的中心节点做统一的逻辑处理。

对于需要交互的数据特别大的类型,这种方法是不可行,因为它需要占用大量带宽,并且需要占用全局管理系统大量的 CPU

把数据做横向的广播

即当一个全局管理系统取到请求以后,通过思考改写,分配到每个不同的分节点以后,每个不同的分节点第一步先计算为了完成这个语句、完成这个查询请求本地需要哪些数据,然后第二步每一个子节点之间都计算出本地这个数据子集的集合大小,分布式数据库系统每个子节点之间也是有通信的。

在工程上的做法是将数据汇总到拥有最大数据子集的那个节点,例如一个请求需要涉及到五个子节点的操作,则第一个子节点需要的数据是1G,而其他子节点的数据都是百兆级别,则会把其他子节点查询出来的子集全部传输到最大数据集的子节点里,这个问题就转化成在这个单节点的数据操作。

在工程上面这种方法用的比较多,是由于分布式数据库系统需要执行大量的数据分析的操作,数据在节点之间的传输是常见的,进一步的优化,会发现有一些数据是需要一直在节点之间做传输,如果每一次查询都需要将相同的数据在节点之间做传输,则会将这一部分数据以广播的方式固定存储在所有的节点里,如商品的类目信息,这类信息实际上跟商品总量相比,是一个小数据,而这种数据几乎每次产品都会使用到,

此时用广播的方式,虽然以商品信息按照不同的维度,如地域、商品种类分配到不同的节点上,但是如分类信息类似于原数据的信息会采取广播的方式,即并不是存在于某个具体的节点,而是所有的节点都拥有相同的一份信息,从统一入口的所有的更新都直接下发到每一个节点,这样就会保证所有的查询只要涉及到需要商品的分类信息,都可以在任意的一个节点上取得全量的分类信息,减少查询过程中的数据传输,这种方法在功能上一般称为小表广播,大表分片。

相关文章
|
6月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
689 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
|
8月前
|
并行计算 关系型数据库 MySQL
如何用 esProc 将数据库表转储提速查询
当数据库查询因数据量大或繁忙变慢时,可借助 esProc 将数据导出为文件进行计算,大幅提升性能。以 MySQL 的 3000 万行订单数据为例,两个典型查询分别耗时 17.69s 和 63.22s。使用 esProc 转储为二进制行存文件 (btx) 或列存文件 (ctx),结合游标过滤与并行计算,性能显著提升。例如,ctx 并行计算将原查询时间缩短至 0.566s,TopN 运算提速达 30 倍。esProc 的简洁语法和高效文件格式,特别适合历史数据的复杂分析场景。
|
5月前
|
存储 监控 分布式数据库
ClickHouse分布式数据库动态伸缩(弹性扩缩容)的实现
实现ClickHouse数据库的动态伸缩需要持续的维护和精细的操作。从集群配置到数据迁移,再到监控和自动化,每一步都要仔细管理以确保服务的可靠性和性能。这些活动可以显著提高应用的响应性和成本效率,帮助业务根据实际需求灵活调整资源分配。
351 10
|
6月前
|
存储 关系型数据库 分布式数据库
【赵渝强老师】基于PostgreSQL的分布式数据库:Citus
Citus 是基于 PostgreSQL 的开源分布式数据库,采用 shared nothing 架构,具备良好的扩展性。它以插件形式集成,部署简单,适用于处理大规模数据和高并发场景。本文介绍了 Citus 的基础概念、安装配置步骤及其在单机环境下的集群搭建方法。
537 2
|
8月前
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
297 12
|
9月前
|
SQL 关系型数据库 MySQL
如何优化SQL查询以提高数据库性能?
这篇文章以生动的比喻介绍了优化SQL查询的重要性及方法。它首先将未优化的SQL查询比作在自助餐厅贪多嚼不烂的行为,强调了只获取必要数据的必要性。接着,文章详细讲解了四种优化策略:**精简选择**(避免使用`SELECT *`)、**专业筛选**(利用`WHERE`缩小范围)、**高效联接**(索引和限制数据量)以及**使用索引**(加速搜索)。此外,还探讨了如何避免N+1查询问题、使用分页限制结果、理解执行计划以及定期维护数据库健康。通过这些技巧,可以显著提升数据库性能,让查询更高效流畅。
|
9月前
|
数据库
【YashanDB知识库】数据库用户所拥有的权限查询
【YashanDB知识库】数据库用户所拥有的权限查询
|
4月前
|
存储 负载均衡 NoSQL
【赵渝强老师】Redis Cluster分布式集群
Redis Cluster是Redis的分布式存储解决方案,通过哈希槽(slot)实现数据分片,支持水平扩展,具备高可用性和负载均衡能力,适用于大规模数据场景。
375 2

热门文章

最新文章