【重新发现PostgreSQL之美】- 24 滑动窗口分析 2000x

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 大家好,这里是重新发现PostgreSQL之美 - 24 滑动窗口分析 2000x

背景


场景:
游戏、社交、电商场景.
流失用户、新增用户、UV计算.
滑动计算, 任意窗口.

挑战:
数据量大、计算量大
传统方案需要记录明细, 才能支持滑动计算

PG解决方案:
采用HLL类型不需要存储明细, 支持滑动, 交、并、差计算.

例子


传统方案:

数据构造:


         
ts date,  -- 日期
gid int,  -- 维度1 , 例如城市
uid int8  -- 用户ID
);

写入1亿条记录, 跨度15:


         
select current_date+(random()*15)::int, random()*100, random()*800000000
from generate_series(1,100000000);

         

         
public | t    | table | postgres | unlogged    | heap          | 4224 MB |

1、查询某一天的UV


         
count
---------
3326250
(1 row)

         
Time: 7268.339 ms (00:07.268)

2、查询某连续7天的UV


         
count
----------
42180699
(1 row)

         
Time: 25291.414 ms (00:25.291)

3、查询某一天相比前一天的新增用户数


         
count
---------
6610943
(1 row)

         
Time: 19969.067 ms (00:19.969)

4、查询某一天相比前一天的流失用户数


         
count
---------
3298421
(1 row)

         
Time: 19434.652 ms (00:19.435)

5、查询某7天相比前7天的新增用户数


         
count
----------
42945970
(1 row)

         
Time: 90321.223 ms (01:30.321)

6、查询某7天相比前7天的流失用户数


         
count
----------
39791334
(1 row)

         
Time: 93443.917 ms (01:33.444)

7、查询某14天的UV


         
count
----------
85126669
(1 row)

         
Time: 48258.861 ms (00:48.259)

PG 解决方案:

数据构造:


         
ts date,  -- 日期
gid int,  -- 维度1 , 例如城市
uid hll  -- 用户IDs
);

每天每个GID一条. 不需要原始数据.


         

         
insert into pt
select ts, gid, hll_add_agg(hll_hash_bigint(uid)) from
t group by ts,gid;

         
INSERT 0 1616
Time: 37344.032 ms (00:37.344)

         
public | pt   | table | postgres | unlogged    | heap          | 2208 kB |

1、查询某一天的UV


         
?column?
--------------------
3422975.3781066863
(1 row)

         
Time: 1.530 ms

2、查询某连续7天的UV


         
?column?
-------------------
42551621.27768603
(1 row)

         
Time: 4.910 ms

3、查询某一天相比前一天的新增用户数


         
a as ( select hll_union_agg(uid) uid from pt where ts=current_date+1 ),
b as ( select hll_union_agg(uid) uid from pt where ts=current_date )
select (# hll_union(a.uid,b.uid)) - (# b.uid) from a,b;

         
?column?
-------------------
6731386.388893194
(1 row)

         
Time: 2.330 ms

4、查询某一天相比前一天的流失用户数


         
a as ( select hll_union_agg(uid) uid from pt where ts=current_date+1 ),
b as ( select hll_union_agg(uid) uid from pt where ts=current_date )
select (# hll_union(a.uid,b.uid)) - (# a.uid) from a,b;

         
?column?
-------------------
3290109.808110645
(1 row)

         
Time: 2.469 ms

5、查询某7天相比前7天的新增用户数


         
a as ( select hll_union_agg(uid) uid from pt where ts>=current_date+7 and ts<current_date+14 ),
b as ( select hll_union_agg(uid) uid from pt where ts>=current_date and ts<current_date+7 )
select (# hll_union(a.uid,b.uid)) - (# b.uid) from a,b;

         
?column?
--------------------
42096480.700727895
(1 row)

         
Time: 8.762 ms

6、查询某7天相比前7天的流失用户数


         
a as ( select hll_union_agg(uid) uid from pt where ts>=current_date+7 and ts<current_date+14 ),
b as ( select hll_union_agg(uid) uid from pt where ts>=current_date and ts<current_date+7 )
select (# hll_union(a.uid,b.uid)) - (# a.uid) from a,b;

         
?column?
--------------------
38055266.104507476
(1 row)

         
Time: 8.758 ms

7、查询某14天的UV


         

         
?column?
-------------------
84648101.97841392
(1 row)

         
Time: 8.739 ms

总结

方法

传统方

4224 MB

PG 解决方案

2 MB

测试case

传统方法速度

hll 速度

hll 精度

1查询某一天的UV

7268 ms

1 ms

97.17%

2查询连续7天的UV

25291 ms

4 ms

99.13%

3查询某一天相比前一天的新增用

19969 ms

2 ms

98.21%

4查询某一天相比前一天的流失用

19434 ms

2 ms

100.25%

5查询7天相比前7天的新增用

90321 ms

8 ms

102.02%

6查询7天相比前7天的流失用

93443 ms

8 ms

104.56%

7查询14天的UV

48258 ms

8 ms

100.57%

关于精度:

https://hub.fastgit.org/citusdata/postgresql-hll

 

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
关系型数据库 物联网 PostgreSQL
沉浸式学习PostgreSQL|PolarDB 11: 物联网(IoT)、监控系统、应用日志、用户行为记录等场景 - 时序数据高吞吐存取分析
物联网场景, 通常有大量的传感器(例如水质监控、气象监测、新能源汽车上的大量传感器)不断探测最新数据并上报到数据库. 监控系统, 通常也会有采集程序不断的读取被监控指标(例如CPU、网络数据包转发、磁盘的IOPS和BW占用情况、内存的使用率等等), 同时将监控数据上报到数据库. 应用日志、用户行为日志, 也就有同样的特征, 不断产生并上报到数据库. 以上数据具有时序特征, 对数据库的关键能力要求如下: 数据高速写入 高速按时间区间读取和分析, 目的是发现异常, 分析规律. 尽量节省存储空间
810 1
|
4月前
|
Oracle NoSQL 关系型数据库
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
839 2
|
关系型数据库 定位技术 分布式数据库
沉浸式学习PostgreSQL|PolarDB 18: 通过GIS轨迹相似伴随|时态分析|轨迹驻点识别等技术对拐卖、诱骗场景进行侦查
本文主要教大家怎么用好数据库, 而不是怎么运维管理数据库、怎么开发数据库内核.
1343 1
|
8月前
|
存储 关系型数据库 MySQL
TiDB与MySQL、PostgreSQL等数据库的比较分析
【2月更文挑战第25天】本文将对TiDB、MySQL和PostgreSQL等数据库进行详细的比较分析,探讨它们各自的优势和劣势。TiDB作为一款分布式关系型数据库,在扩展性、并发性能等方面表现突出;MySQL以其易用性和成熟性受到广泛应用;PostgreSQL则在数据完整性、扩展性等方面具有优势。通过对比这些数据库的特点和适用场景,帮助企业更好地选择适合自己业务需求的数据库系统。
1277 4
|
8月前
|
SQL 关系型数据库 MySQL
PostgreSQL【异常 01】java.io.IOException:Tried to send an out-of-range integer as a 2-byte value 分析+解决
PostgreSQL【异常 01】java.io.IOException:Tried to send an out-of-range integer as a 2-byte value 分析+解决
560 1
|
SQL 关系型数据库 MySQL
《PostgreSQL与MySQL:详细对比与分析》
《PostgreSQL与MySQL:详细对比与分析》
669 0
|
存储 关系型数据库 PostgreSQL
Postgresql内核源码分析-heapam分析
Postgresql内核源码分析-heapam分析
203 1
|
SQL 存储 自然语言处理
玩转阿里云PostgreSQL,通过pg_jieba对豆瓣影评进行热评分析
在当今社交媒体的时代,人们通过各种平台分享自己的生活、观点和情感。然而,对于平台管理员和品牌经营者来说,了解用户的情感和意见变得至关重要。为了帮助他们更好地了解用户的情感倾向,我们可以使用PostgreSQL中的pg_jieba插件对这些发帖进行分词和情感分析,来构建一个社交媒体情感分析系统,系统将根据用户的发帖内容,自动判断其情感倾向是积极、消极还是中性,并将结果存储在数据库中。 本文通过针对kaggle数据集中的豆瓣影评的中文评论数据,通过阿里云的PostgreSQL中的pg_jieba插件进行分词(可自定义多个词典,并且切换自定义词典进行分词),基于分词的结果进行统计分析。
|
关系型数据库 分布式数据库 PolarDB
沉浸式学习PostgreSQL|PolarDB 15: 企业ERP软件、网站、分析型业务场景、营销场景人群圈选, 任意字段组合条件数据筛选
本篇文章目标学习如何快速在任意字段组合条件输入搜索到满足条件的数据.
639 0
|
关系型数据库 数据库 PostgreSQL
PostgreSQL pg_rewind报错分析
PostgreSQL pg_rewind报错分析
218 0