阿里云PostgreSQL精选案例 - 实时精准营销、人群圈选

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 标签 PostgreSQL , 阿里云 , 实时精准营销 , 人群圈选 , 广告 背景 行业: 几乎所有行业, 如互联网、新零售、教育、游戏等. 应用场景: 根据目标群体的特征, 快速提取目标群体.

标签

PostgreSQL , 阿里云 , 实时精准营销 , 人群圈选 , 广告


背景

行业:

几乎所有行业, 如互联网、新零售、教育、游戏等.

应用场景:

image

根据目标群体的特征, 快速提取目标群体.
例如,

  • 在电商行业中, 商家在搞运营活动前, 根据活动的目标群体的特征, 圈选出一批目标用户进行广告推送或活动条件的命中.
  • 在游戏行业中, 运营经常会根据游戏玩家的某些特征圈选, 针对性的发放大礼包, 激活游戏活跃度.
  • 在教育行业中, 根据学生不同的特征, 推送不同的有针对性的习题, 提升学生的弱项.
  • 在搜索、门户、视频网站等业务中, 根据用户的关注热点, 近期行为的不同, 根据群体推送内容.

image

场景痛点:

业务特点:
1、数据量庞大, 运算量大
2、用户标签多, 字段多, 存储占用空间多
3、字段多, 可能超过数据库的字段数限制, 一般数据库最多支持1000多个字段.
4、使用数组替代多字段存储标签, 需要数据库支持倒排索引, 不是所有数据库都支持倒排索引
5、使用数组代替多字段存储标签, 加上倒排索引, 存储空间会暴增
6、圈选条件组合多样化, 没有固定索引可以优化, 每个字段一个索引, 存储空间暴增
7、性能要求高, 实时营销, 要求秒级响应
8、数据更新时效要求高, 用户画像要求近实时的更新, 如果不能准实时更新很可能圈选到的用户不精准(例如用户昨天在浏览手机. 昨晚已下单, 但是数据未更新, 那么作为手机卖家圈选时这个用户就会被选中, 但是实际上已经不是目标群体)

业务痛点:
在常见的产品如MySQL中, 无法在有限的资源下, 满足实时圈选目标群体的需求.

技术方案:

方案1

表结构:

KEY: 用户ID  
标签1:   
标签2:   
...  
标签N:  

索引:

每个标签字段一个索引  

搜索方法:

and , or , not 组合  
where 标签a and 标签b and ...  

缺陷:

  • 用户标签多, 字段多, 存储占用空间多
  • 字段多, 可能超过数据库的字段数限制, 一般数据库最多支持1000多个字段.
  • 圈选条件组合多样化, 没有固定索引可以优化, 每个字段一个索引, 存储空间暴增
  • 新增一个新多用户群体(标签)时, 需要更新大量数据
  • 查询性能差
  • 方案1也可以是多对多的结构, 每个标签一条记录, 解决字段数限制的问题.

    • 当然了, 字段数限制还可以通过拆表来解决, 但是查询的时候就可能需要跨表JOIN了.

方案2

表结构:

KEY:用户ID  
VALUES:标签数组  

索引:

标签数组字段: GIN倒排索引  

搜索方法:

与、或、非  
where VALUES @> array[标签s] -- 与  
where VALUES && array[标签s] -- 或  
where not VALUES @> array[标签s] -- 非  

缺陷:

  • 使用数组替代多字段存储标签, 需要数据库支持倒排索引, 不是所有数据库都支持倒排索引
  • 使用数组代替多字段存储标签, 加上倒排索引, 存储空间会暴增
  • 新增一个新多用户群体(标签)时, 需要更新大量数据

方案3

表结构:

KEY:标签ID  
VALUES: 用户bitmap  

索引:

标签ID字段: Btree索引  

搜索方法:

聚合bitmap: 与、或、非  
and_agg(bitmaps) where KEY in (标签s) -- 与  
or_agg(bitmaps) where KEY in (标签s) -- 或  
except(bitmap1,bitmap2) -- 非  

缺陷:

  • bitmap最大长度为1GB, 用户数超过长度需要使用offset, 方法如下:

    • offset0_bitmap, offset1gb_bitmap, ...
  • 用户ID需要是数字(建议连续数值), 如果没有数值型UID, 需要治理, 建立映射表.

优势:

  • 表存储占用空间小
  • 索引存储占用空间小

    • 仅需一个Btree索引, 索引记录数少(有多少标签, 就有多少条记录, 通常标签数在百万以内)
  • 新增一个新多用户群体(标签)时, 不需要更新大量数据, 仅需新增一条新人群的bitmap记录
  • 查询性能极好

DEMO介绍:

通用操作

1、购买RDS PG 12
2、购买RDS MySQL 8.0
3、配置白名单
4、创建用户
5、创建数据库

方案1 DEMO

MySQL 不支持数组类型、倒排索引、位图功能, 所以仅支持方案1.

1、MySQL 8.0

2、PG 12

1、创建人群表, 每条记录代表一个人群.

create table t_tag_dict (  
tag int primary key,   -- 标签(人群)id  
info text,  -- 人群描述  
crt_time timestamp  -- 时间  
);   

2、生成10万个人群(即标签)

insert into t_tag_dict values (1, '男', now());  
insert into t_tag_dict values (2, '女', now());  
insert into t_tag_dict values (3, '大于24岁', now());  
-- ...  
insert into t_tag_dict   
select generate_series(4,100000), md5(random()::text), clock_timestamp();  

3、创建用户画像表(每个用户N条记录, 每条记录代表这个用户贴的某个标签)

create table t_user_tag (  
uid int8,   -- 用户id  
tag int,            -- 用户对应标签(人群)  
mod_time timestamp,     -- 时间  
primary key (tag,uid)  
);   

4、给2000万个用户打标, 每个用户64个随机标签, 其中男、女各一半, 一共12.8亿条记录

create or replace function gen_rand_tag(int,int) returns setof int as  
$$  
  select case when random() > 0.5 then 1::int else 2::int end as tag  
  union all  
  select ceil(random()*$1)::int as tag from generate_series(1,$2);  
$$ language sql strict volatile;  
  
insert into t_user_tag  
select uid, gen_rand_tag(100000,63) as tag, clock_timestamp()   
from generate_series(1,20000000) as uid on conflict (uid,tag) do nothing;  
  
-- 或使用如下方法加速导入  
create sequence seq;  
  
vi test.sql  
insert into t_user_tag  
select uid, gen_rand_tag(100000,63) as tag, clock_timestamp()   
from nextval('seq'::regclass) as uid   
on conflict(tag,uid) do nothing;  
  
pgbench -M prepared -n -r -P 1 -f ./test.sql -c 50 -j 50 -t 400000  

5、查询包含1,3标签的人群

1、人群数量  
select count(*) from   
(  
select uid from t_user_tag where tag=1   
intersect  
select uid from t_user_tag where tag=3  
) t;  
-- Time: 1494.789 ms (00:01.495)  
  
2、提取人群ID  
select uid from t_user_tag where tag=1   
intersect  
select uid from t_user_tag where tag=3;  
-- Time: 3246.184 ms (00:03.246)  

6、查询包含1或3或10或200标签的人群

1、人群数量  
select count(*) from   
(  
select uid from t_user_tag where tag=1   
union  
select uid from t_user_tag where tag=3  
union  
select uid from t_user_tag where tag=10  
union  
select uid from t_user_tag where tag=200  
) t;  
-- Time: 3577.714 ms (00:03.578)  
  
2、提取人群ID  
select uid from t_user_tag where tag=1   
union  
select uid from t_user_tag where tag=3  
union  
select uid from t_user_tag where tag=10  
union  
select uid from t_user_tag where tag=200;  
-- Time: 5682.458 ms (00:05.682)  

7、空间占用情况:

 public | t_user_tag         | table | postgres | 62 GB   |   
 public | t_user_tag_pkey    | index | postgres | t_user_tag    | 61 GB  |  

方案2 DEMO

1、PG 12

1、创建人群表, 每条记录代表一个人群.

create table t_tag_dict (  
tag int primary key,   -- 标签(人群)id  
info text,  -- 人群描述  
crt_time timestamp  -- 时间  
);   

2、生成10万个人群(即标签)

insert into t_tag_dict values (1, '男', now());  
insert into t_tag_dict values (2, '女', now());  
insert into t_tag_dict values (3, '大于24岁', now());  
-- ...  
insert into t_tag_dict   
select generate_series(4,100000), md5(random()::text), clock_timestamp();  

3、创建用户画像表(每个用户一条记录, 用数组表示这个用户归属哪些标签)

create table t_user_tags (  
uid int8 primary key,   -- 用户id  
tags int[],            -- 用户标签(人群)数组  
mod_time timestamp     -- 时间  
);   

4、创建生成随机打标数组的函数

create or replace function gen_rand_tags(int,int) returns int[] as $$  
  select array_agg(ceil(random()*$1)::int) from generate_series(1,$2);  
$$ language sql strict;  

4.1、在10万个标签内随机提取8个标签:

select gen_rand_tags(100000, 8);  
                   gen_rand_tags                     
---------------------------------------------------  
 {43494,46038,74102,25308,99129,40893,33653,29690}  
(1 row)  

5、给2000万个用户打标, 每个用户64个随机标签, 其中男、女各一半

insert into t_user_tags   
select generate_series(1,10000000),   
array_append(gen_rand_tags(100000, 63),1), now();  
  
insert into t_user_tags   
select generate_series(10000001,20000000),   
array_append(gen_rand_tags(100000, 63),2), now();  

6、创建标签(人群)字段倒排索引

create index idx_t_user_tags_1 on t_user_tags using gin (tags);  

7、查询包含1,3标签的人群

1、人群数量  
select count(uid) from t_user_tags where tags @> array[1,3];  
  
2、提取人群ID  
select uid from t_user_tags where tags @> array[1,3];  

8、查询包含1或3或10或200标签的人群

1、人群数量  
select count(uid) from t_user_tags where tags && array[1,3,10,200];  
  
2、提取人群ID  
select uid from t_user_tags where tags && array[1,3,10,200];  

方案3 DEMO

1、PG 12

RDS PG 12已支持位图功能, 常用说明:

安装插件 – create extension roaringbitmap;  
  
bitmap输出格式 – set roaringbitmap.output_format='bytea|array';  
  
bitmap取值范围 – 40亿(int4)   
  
构造bitmap –  rb_build(int4[])   
  
bitmap转换为数组或多条记录 - rb_to_array(rb) – rb_iterate(rb)   
  
bitmap内包含对象个数 – rb_cardinality(rb)   
  
逻辑运算: 与、或、异或、差  
SELECT roaringbitmap('{1,2,3}') | roaringbitmap('{3,4,5}');  
SELECT roaringbitmap('{1,2,3}') & roaringbitmap('{3,4,5}');  
SELECT roaringbitmap('{1,2,3}') # roaringbitmap('{3,4,5}');  
SELECT roaringbitmap('{1,2,3}') - roaringbitmap('{3,4,5}');  
  
聚合运算: build rb、与、或、异或  
SELECT rb_build_agg(e) FROM generate_series(1,100) e;  
SELECT rb_or_agg(bitmap) FROM t1;  
SELECT rb_and_agg(bitmap) FROM t1;  
SELECT rb_xor_agg(bitmap) FROM t1;  
  
聚合并统计对象数(与、或、异或)  
rb_or_cardinality_agg  
rb_and_cardinality_agg  
rb_xor_cardinality_agg  
  
逻辑判断: 包含、相交、相等、不相等  
Opperator   Input   Output  Desc    Example Result  
@>  roaringbitmap,roaringbitmap bool    contains    roaringbitmap('{1,2,3}') @> roaringbitmap('{3,4,5}')    f  
@>  roaringbitmap,integer   bool    contains    roaringbitmap('{1,2,3,4,5}') @> 3   t  
<@  roaringbitmap,roaringbitmap bool    is contained by roaringbitmap('{1,2,3}')    f  
<@  integer,roaringbitmap   bool    is contained by 3   t  
&&  roaringbitmap,roaringbitmap bool    overlap (have elements in common)   roaringbitmap('{1,2,3}') && roaringbitmap('{3,4,5}')    t  
=   roaringbitmap,roaringbitmap bool    equal   roaringbitmap('{1,2,3}') = roaringbitmap('{3,4,5}') f  
<>  roaringbitmap,roaringbitmap bool    not equal   roaringbitmap('{1,2,3}') <> roaringbitmap('{3,4,5}')    t  

当uid 超过int4(40亿)时, 使用offset转换, 转换方法如下:

其他使用方法参考:

1、安装插件

create extension roaringbitmap;  

2、创建标签,用户bitmap表

create table t_tag_users (  
  tagid int primary key,   -- 用户标签(人群)id   
  uid_offset int,          -- 由于userid是int8类型,roaringbitmap内部使用int4存储,需要转换一下。     
  userbits roaringbitmap,     -- 用户id聚合的 bitmap    
  mod_time timestamp       -- 时间   
);  

3、生成标签,uid bitmap

insert into t_tag_users   
select tagid, uid_offset, rb_build_agg(uid::int) as userbits from   
(  
select   
  unnest(tags) as tagid,   
  (uid / (2^31)::int8) as uid_offset,   
  mod(uid, (2^31)::int8) as uid   
from t_user_tags   
) t   
group by tagid, uid_offset;   

4、查询包含1,3标签的人群

1、人群数量  
select sum(ub) from   
(  
select uid_offset,rb_and_cardinality_agg(userbits) as ub   
from t_tag_users   
where tagid in (1,3)   
group by uid_offset  
) t;  
  
2、提取人群ID  
select uid_offset,rb_and_agg(userbits) as ub   
from t_tag_users   
where tagid in (1,3)   
group by uid_offset;  

5、查询包含1或3或10或200标签的人群

1、人群数量  
select sum(ub) from   
(  
select uid_offset,rb_or_cardinality_agg(userbits) as ub   
from t_tag_users   
where tagid in (1,3,10,200)   
group by uid_offset  
) t;  
  
2、提取人群ID  
select uid_offset,rb_or_agg(userbits) as ub   
from t_tag_users   
where tagid in (1,3,10,200)   
group by uid_offset;   

方案对比:

环境:

数据库 计算规格 存储规格
MySQL 8.0 8C 32G 1500GB ESSD
PG 12 8C 32G 1500GB ESSD

性能对比:

CASE(12.8亿 user/tags)(2000万, 64 tags/user) 方案1(MySQL、PG)多对多:常规方案 方案2(PG)一对多:数组、倒排索引 方案3(PG)一对多:位图 方案3 vs 方案1提升%
与查询圈选用户速度 1.5秒 42毫秒 1.5毫秒 99900%
或查询圈选用户速度 3.6秒 3秒 1.7毫秒 211665%
空间占用(表) 62GB 3126MB 1390MB 4467%
空间占用(索引) 61GB 3139MB 2MB 3123100%
build索引速度 - 20分钟 0 -

RDS PG方案价值:

1、RDS PG支持了位图功能(roaringbitmap), 可以非常高效率的生成、压缩、解析位图数据, 支持最常见的与、或、非、异或等位图聚合操作, 提取位图的ID、选择性, 判断ID是否存在等操作.
2、使用RDS PG数据库, 满足了用户在亿级以上用户, 百万~千万量级标签的大数据量下实时精准营销、快速圈选用户的需求.
3、对比MySQL的方案, RDS PG方案优势非常明显, 是一个低成本, 高效率的解决方案.

  • 节约存储空间 8948%,
  • 平均性能提升 155782.5%,
  • 最高性能提升 211665%.

课程视频

视频:
https://yq.aliyun.com/live/1896

阿里云RDS PG优惠活动

https://www.aliyun.com/database/postgresqlactivity

大量RDS PG优惠活动:

  • 9.9元试用3个月
  • 升级5折

阿里云PG技术交流群

image

免费领取阿里云RDS PostgreSQL实例、ECS虚拟机

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
7月前
|
搜索推荐 算法 数据挖掘
十个最全网站营销方法案例分析
本文探讨了10种网站营销策略:SEO优化提升搜索引擎排名;内容营销建立品牌信任;社交媒体营销扩大影响力;搜索引擎广告吸引目标用户;电子邮件营销促进销售;网站设计优化提升用户体验;移动端优化适应移动设备;数据分析驱动策略优化;视频营销吸引关注;合作伙伴营销扩展品牌覆盖。AokSend提供高效验证码发信服务,助力企业营销。选择合适策略,持续优化,以实现最佳营销效果。
|
NoSQL 关系型数据库 MySQL
阿里云RDS关系型数据库大全_MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等
阿里云RDS关系型数据库如MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等,NoSQL数据库如Redis、Tair、Lindorm和MongoDB
338 0
|
6月前
|
存储 SQL BI
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
7月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
6月前
|
SQL 关系型数据库 PostgreSQL
【sql】PostgreSQL物化视图表使用案例
【sql】PostgreSQL物化视图表使用案例
55 0
|
存储 人工智能 关系型数据库
5倍性能提升,阿里云AnalyticDB PostgreSQL版新一代实时智能引擎重磅发布
2023 云栖大会上,AnalyticDB for PostgreSQL新一代实时智能引擎重磅发布,全自研计算和行列混存引擎较比开源Greenplum有5倍以上性能提升。AnalyticDB for PostgreSQL与通义大模型家族深度集成,推出一站式AIGC解决方案。阿里云新发布的行业模型及“百炼”平台,采用AnalyticDB for PostgreSQL作为内置向量检索引擎,性能较开源增强了2~5倍。大会上来自厦门国际银行、三七互娱等知名企业代表和瑶池数据库团队产品及技术资深专家们结合真实场景实践,深入分享了最新的技术进展和解析。
5倍性能提升,阿里云AnalyticDB PostgreSQL版新一代实时智能引擎重磅发布
|
7月前
|
安全 关系型数据库 数据库
上新|阿里云RDS PostgreSQL支持PG 16版本,AliPG提供丰富自研能力
AliPG在社区版16.0的基础上,在安全、成本、可运维性等多个方面做了提升,丰富的内核/插件特性支持,满足业务场景的需求
|
7月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
116 0
|
SQL 关系型数据库 分布式数据库
阿里云PolarDB是一款兼容MySQL、PostgreSQL和SQL Server等多种数据库协议的产品
阿里云PolarDB是一款兼容MySQL、PostgreSQL和SQL Server等多种数据库协议的产品
820 6

相关产品

  • 云原生数据库 PolarDB