PostgreSQL 空间包含 OR 组合查询 、 IN 大量重复值 CASE 优化 - 消重、消bitmapOr、消filter

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介:

标签

PostgreSQL , 空间 or , in 重复值 , bitmap index scan , bitmapOr , filter , recheck


背景

简单的等值查询,空间包含查询,很容易想到使用索引加速。

但是当条件升级到IN,或者多个空间包含的OR查询时,数据库可能会选择多次索引扫描然后BitmapOr的方法,这种方法虽然用了索引,但是由于索引返回的是BLOCKID而不是CTID,所以会引入recheck。

《PostgreSQL bitmap scan的IO放大的原理解释和优化》

如果IN内数值,或者空间本身存在大量的重叠区间,那么性能会下降更严重。

postgres=# create table abc(id int primary key, info text);  
  
postgres=# insert into abc select generate_series(1,10000000), 'test';  
  
-- 查询100万个重复ID  
postgres=# do language plpgsql $$                                                                       
declare  
sql text;  
begin  
  select string_agg('1',',') into sql from generate_series(1,1000000);  
  sql := format('select * from abc where id in (%s);', sql);   
  raise notice '%', clock_timestamp();  
  execute sql;   
  raise notice '%', clock_timestamp();  
end;  
$$;  
NOTICE:  2018-06-22 02:35:54.731764+08  
NOTICE:  2018-06-22 02:35:55.841688+08  
DO  
Time: 1336.696 ms (00:01.337)  

实际场景中多个空间包含组合搜索还蛮常见:

查询所有连锁店覆盖的空间区域的数据,

查询多个空间圈选后包含的数据,

存在同样的问题,例如两个st_covers的or组合查询,变成了bitmap index scan

select * from xxx where st_covers(geo1,loc) or st_covers(geo2,loc) or .... st_covers(geo?,loc);
  
 Bitmap Heap Scan on xxx  (cost=8.84..13.37 rows=1 width=1194) (actual time=0.940..2.547 rows=215 loops=1)  
   Output: xxx  
   Recheck Cond: (('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography && xxx.location) OR ('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography && xxx.location))  
   Filter: ((('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography && xxx.location) AND _st_covers('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography, xxx.location)) OR (('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography && xxx.location) AND _st_covers('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography, xxx.location)))  
   Rows Removed by Filter: 18  
   Heap Blocks: exact=241  
   Buffers: shared hit=259  
   ->  BitmapOr  (cost=8.84..8.84 rows=1 width=0) (actual time=0.862..0.862 rows=0 loops=1)  
         Buffers: shared hit=18  
         ->  Bitmap Index Scan on xxx  (cost=0.00..4.42 rows=1 width=0) (actual time=0.465..0.465 rows=242 loops=1)  
               Index Cond: ('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography && xxx.location)  
               Buffers: shared hit=9  
         ->  Bitmap Index Scan on xxx  (cost=0.00..4.42 rows=1 width=0) (actual time=0.397..0.397 rows=242 loops=1)  
               Index Cond: ('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography && xxx.location)  
               Buffers: shared hit=9  
 Planning time: 0.719 ms  
 Execution time: 2.590 ms  
(17 rows)  

优化

数值IN大量重复值

1、SQL重写请参考:

《PostgreSQL in 与 = any 的SQL语法异同与性能优化》

2、客户端对输入条件去重,然后再拼接SQL进行输入

空间包含or组合查询

1、客户端对空间进行重叠处理去重,

2、然后根据空间BOX进行split,拆成多个空间对象,切割的目的是提高有效空间的占比。减少不规则空间对象使用GiST索引扫描时,BOUND BOX引入的无效记录的占比。提高效率。

3、将原来的OR改成,多个空间对象的包含查询,

4、union all组合多个查询。

select * from xxx where st_cover(geo1, loc)   
union all  
select * from xxx where st_cover(geo2, loc)   
union all  
...  
select * from xxx where st_cover(geo?, loc) ;  

执行计划会变成类似这样(注意下面演示的执行计划没有对空间去重(只是演示问题,不是真实问题),你需要关注的是空间去重后,recheck没有了,bitmap scan没有了,只有append, INDEX SCAN。真实情况下按bound box切割时多个index scan扫描的BLOCK是完全隔离的,不会产生冗余扫描。)

同时,原始的查询条件如果有100个OR,实际上在空间处理后换成union all的查询可能没有100个UNION ALL,根据实际的空间SPLIT情况来定。

 Append  (cost=0.41..17.40 rows=2 width=1178) (actual time=0.126..3.267 rows=430 loops=1)
   Buffers: shared hit=500
   ->  Index Scan using xxx on xxx.xxx  (cost=0.41..8.69 rows=1 width=1194) (actual time=0.126..1.821 rows=215 loops=1)
         Output: xxx
         Index Cond: ('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography && xxx.location)
         Filter: _st_covers('0103000020E610000001000000050000004607CD68194F5E40A30954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40A30954F216CA4240'::geography, xxx.location)
         Rows Removed by Filter: 18
         Buffers: shared hit=250
   ->  Index Scan using xxx on xxx.xxx xxx_1  (cost=0.41..8.69 rows=1 width=1194) (actual time=0.101..1.402 rows=215 loops=1)
         Output: xxx
         Index Cond: ('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography && xxx_1.location)
         Filter: _st_covers('0103000020E610000001000000050000004607CD68194F5E40250954F216CA42404607CD68194F5E4017898ACF2AC742401DBB4CC022505E4017898ACF2AC742401DBB4CC022505E40A30954F216CA42404607CD68194F5E40250954F216CA4240'::geography, xxx_1.location)
         Rows Removed by Filter: 18
         Buffers: shared hit=250

如果客户端的计算都可以在PostGIS中实现,那么也可以交给PG来处理(引入一些空间计算的开销),但是数据库数据扫描与RECHECK,FILTER的开销则降低了。

在数据库端实现的优化例子:

《PostgreSQL 空间切割(st_split, ST_Subdivide)功能扩展 - 空间对象网格化 (多边形GiST优化)》

《PostgreSQL 空间st_contains,st_within空间包含搜索优化 - 降IO和降CPU(bound box) (多边形GiST优化)》

小结

本例的优化思路,通过对条件本身去重,降低扫描成本,降低recheck成本。

在处理空间查询时,对多个OR条件的空间对象进行组合,空间交叠后,按BOX切割成多个空间对象,使用UNION ALL组合查询,降低扫描成本。

参考

《PostgreSQL 空间切割(st_split, ST_Subdivide)功能扩展 - 空间对象网格化 (多边形GiST优化)》

《PostgreSQL 空间st_contains,st_within空间包含搜索优化 - 降IO和降CPU(bound box) (多边形GiST优化)》

《PostgreSQL in 与 = any 的SQL语法异同与性能优化》

《HTAP数据库 PostgreSQL 场景与性能测试之 25 - (OLTP) IN , EXISTS 查询》

《聊一下PostgreSQL优化器 - in里面有重复值时PostgreSQL如何处理?》

https://postgis.net/docs/ST_Covers.html

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
5月前
|
监控 关系型数据库 数据库
PostgreSQL的索引优化策略?
【8月更文挑战第26天】PostgreSQL的索引优化策略?
121 1
|
2月前
|
SQL 关系型数据库 数据库
PostgreSQL性能飙升的秘密:这几个调优技巧让你的数据库查询速度翻倍!
【10月更文挑战第25天】本文介绍了几种有效提升 PostgreSQL 数据库查询效率的方法,包括索引优化、查询优化、配置优化和硬件优化。通过合理设计索引、编写高效 SQL 查询、调整配置参数和选择合适硬件,可以显著提高数据库性能。
453 1
|
4月前
|
缓存 关系型数据库 数据库
如何优化 PostgreSQL 数据库性能?
如何优化 PostgreSQL 数据库性能?
182 2
|
5月前
|
缓存 关系型数据库 数据库
PostgreSQL 查询性能
【8月更文挑战第5天】PostgreSQL 查询性能
92 8
|
5月前
|
监控 关系型数据库 数据库
如何优化PostgreSQL的性能?
【8月更文挑战第4天】如何优化PostgreSQL的性能?
286 7
|
7月前
|
SQL 关系型数据库 数据库
Python执行PostgreSQL数据库查询语句,并打印查询结果
本文介绍了如何使用Python连接和查询PostgreSQL数据库。首先,确保安装了`psycopg2`库,然后创建数据库连接函数。接着,展示如何编写SQL查询并执行,例如从`employees`表中选取所有记录。此外,还讨论了处理查询结果、格式化输出和异常处理的方法。最后,提到了参数化查询和事务处理以增强安全性及确保数据一致性。
Python执行PostgreSQL数据库查询语句,并打印查询结果
|
6月前
|
Java 关系型数据库 API
使用Spring Boot和PostgreSQL构建高级查询
使用Spring Boot和PostgreSQL构建高级查询
|
7月前
|
SQL 关系型数据库 数据库
Python查询PostgreSQL数据库
木头左教你如何用Python连接PostgreSQL数据库:安装`psycopg2`库,建立连接,执行SQL脚本如创建表、插入数据,同时掌握错误处理和事务管理。别忘了性能优化,利用索引、批量操作提升效率。下期更精彩!💡 csvfile
Python查询PostgreSQL数据库
|
8月前
|
SQL 人工智能 Oracle
PostgreSQL 递归查询(含层级和结构)
PostgreSQL 递归查询(含层级和结构)
|
8月前
|
存储 JSON 关系型数据库
PostgreSQL Json应用场景介绍和Shared Detoast优化
PostgreSQL Json应用场景介绍和Shared Detoast优化

相关产品

  • 云原生数据库 PolarDB
  • 云数据库 RDS PostgreSQL 版