[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)|学习笔记(一)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)

开发者学堂课程【数据仓库 ACP 认证课程[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上) 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/928/detail/14626


[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)

 

内容介绍:

一、产品概述

二、产品架构及原理

三、产品相关概念

四、核心功能解析与实践

 

一、产品概述

1.产品简介

云原生数据仓库AnalyticDB PostgreSQL版( ADB PG )是阿里云自研高性能海量扩展数据仓库服务,兼容部分Oracle/Teradata语法生态,应用于阿里巴巴集团内部电商,物流,文娱,广告等业务部门,服务于阿里云的金融、政企、互联网等各行业用户,支持快速构建新一代云化数据仓库服务。

(1)PB级数据实时响应

MPP水平扩展架构,PB级数据查询秒级响应;向量化计算,及列存储智能索引,领先传统数据库引擎性能3x;新- -代SQL优化器,实现复杂分析语句免调优

(2)稳定可靠、简化运维

飞天平台基于阿里多年大规模集群系统构筑经验打造,智能硬件管理,故障监控诊断自恢复,支持MPP数据库实现复杂集群系统高可靠,自运维

(3)SQL兼容性

支持SQL 2003 ,部分兼容Oracle语法,支持PL/SQL存储过程,OLAP窗口函数,视图等.完备功能和生态,实现应用快速适配、或迁移

(4)数据多模分析

通过PostGIS插件支持地理信息数据分析;内置100+机器学习算法库,实现数据智能探索;高性能向量检索算法,支持视频/图像检索以图搜图

2. 发展历程

image.png

2017

ADB PG(原HDB)诞生

内核PG 8.2

2018

ORCA优化器

稀疏和聚簇索引

JSON数据类型

OSS外表

2019

内核升级PG9.4

向量执行引擎1.0

多MASTER

RBO优化器增强

高维向量检索

信通院&信创认证

2020

云原生升级

备份恢复

外表联邦分析

多维排序

向量执行引擎

TPCH性价比全球第一

2021

副本多活

分层存储

计算存储分离

HTAP增强

行列混存

3.产品定位

兼容业内主流数仓架构方案,支持ETL离线处理,支持在线交互分析。通过高性能计算引擎及实时同步方案,支持在线数据随机探索,实时同步分析。

 image.png

主要包括实时数据入库和批量加载,实时数据入库包括 RDS 等做一些实时同步等,批量加载可以通过 kettle 、Dataworks等导入,数据进入后由数仓进行加工,加工后进行报表查询。

功能完备:

基于PostgreSQL内核, SQL高度兼容Teradata/Oracle

生态完备:

与阿里云数仓开发平台Dataworks ,数据中台Dataphin , 数据同步工具DTS等无缝集成;支持业内主流第三方工具

4.产品特点与优势

(1)性能强劲

TPC-H评测全球第一,超过90%的读写性能水平扩展比

(2)弹性

分布式弹性架构,PB级数据存储与分析

(3)遵循PG/GP协议

业界最主流数仓协议,兼容主流ETL/BI/可视化等生态工具

(4)简单易用

经历大规模验证,对标传统商业数仓的企业级特性

5.核心功能

(1)核心功能: PL/pgSQL过程语言

自定义函数&存储过程如下:

CREATE [OR REPLACE] {FUNCTION| STORED PROCEDURE} nane

( [ [argmode] largname] argtype [ { DEFAULT 1 = } default. _expr 1 [, ...]] )

{ RETURNS rettype

| RETURNS TABLE ( column. .name column. .type [, ...] ) ]

{ LANGUAGE langname

| WINDOW

| IMMUTABLE| STABLE | VOLATILE| [NOT] LEAKPROOF

| CALLED ON NULL INPUT| RETURNS NULL ON NULL INPUT| STRICT

| [EXTERNAL] SECURITY INVOKER| [EXTERNAL] SECURITY DEFINER

| EXECUTE ON { ANY 1 MASTER| ALL SEGMENTS }

| COST execution. cost

| SET configuration. parameter { T0 value| = value | FROM CURRENT }

| AS ‘definition'

| AS ‘obj. _file', ‘link_ .symbol' } ...

[ WITH ({ DESCRIBE = describe. _function

}[,...1)].

(2)核心功能: CBO优化器

新一代cascade框架的SQL优化器,面向全并行执行架构,代价优化CBO和规则优化RBO相结合,实现复杂SQL免调优。

Top-Down路径搜索框架,搜索和路径选择更全面精准,避免出现局部查询路径最优解

子查询自动改写为分布式JOIN ,实现并行计算,规避手工改写调优

SQL优化阶段定义动态分区裁剪,即支持确定性过滤条件,也支持参数化的过滤条件,减少I/O

(3)核心功能:资源负载管理

支持自定义执行队列,根据用户角色,其执行任务进入对应资源管控队列。任务队列支持设定:

并行执行任务数

CPU优先级

内存资源上限

示例:用户自定义三个执行队列

ETL队列:赋予资源获取最低优先级

BI报表队列:赋予资源获取最高优先级

数据探索队列:赋予资源获取中间优先级

image.png

(4)核心功能:备份恢复方式丰富

 image.png

PITR备份恢复

RPO< 10min

支持差异化全量备份

支持增量备份

分布式一致性恢复

表级逻辑备份

物理备份是针对实例级别,同时支持单个表的逻辑备份

(5)支持丰富生态

image.png

主流工具是支持的

5.产品选型

产品系列

特点

性价比

可用性

预留模式

兼Greenplum/PostgreSQL。支持2c、4c和8c规格,不同规格之间支持在线升降配、秒级切换,不影响业务运行,适合数据实时写入( DTS),高并发、实时分析场景。

百万TPS实时写入,上

百QPS查询

支持单副本和双副本模式,数据保存在云盘,可用性

99.9%。

 

弹性模式

采用云原生架构,存储和计算完全分离,支持更大存储量,存储成本低,支持秒级扩缩容。适合批量导入、低并发,复杂ETL分析场景。

百万TPS批量导入,几+QPS复杂分析查询。

 

所有数据保存在OSS上,计算双副本,可用性99.9%

 

 

二、产品架构及原理

1.产品架构

AnalyticDB PostgreSQL版具有MPP水平扩展,海量数据实时分析,兼容Oracle语法生态,高可用HA架构,支持分布式事务等优势。

image.png

多活协调节点:

Cascade架构SQL优化器

全局分布式事务管理

计算节点水平扩展:

计算任务全并行执行

新一代向量化计算引擎

非结构化数据检索

高可靠存储引擎:

本地数据双副本

支持行存储/列存储

高吞吐导入/导出

分布式事务支持:

支持分布式事务,保证强- -致性

支持SI/RC隔离级别

2. 模块组件

(1)模块组件

AnalyticDB PostgreSQL版的架构主要包含Master Node和Compute Node两大组件,中间通过Interconnect

进行互联通信和数据交换传输。

Master Node 协调节点,包括协议解析、健全认证、优化、GTM、全集元数据的存储等等

Computer Node 计算节点,包括查询执行、本地事务管理器、本地元数据、缓存、数据、索引

Master Node

Computer Node

Segment

负责客户端连接协议层接入,认证和鉴权,SQL解析,重写,优化,和执行分发协调。

全局事务管理器(Global TransactionManager ),负责全局事务ID、快照生

成和分布式事务管理

全局元数据目录(Global Catalog )则记录了用户,库,表,视图,索引,分布分

区等数据库对象的元数据信息。

Compute Node包含了一组Segment

部署形态上可以是物理机,VM或者容器

 

Segment是负责具体的SQL执行和数据存储节点。

执行引擎通过向量化和及时编译(JIT)等技术,相比传统逐行计算的火山模型获得数倍性能提升。

数据和索引( Data & Index )支持行存表,列存表,和外表以及相应索引。

 

(2)组件交互

image.png

第一步,客户端发送,接受客户端连接,Master 用户的认证鉴权

第二步,语法语义解析,生成解析树

第三步,根据解析树优化并生成执行计划

第四步,分配集群 segment 并下发执行计划,协调执行并返回最终结果

第五步,Segment QE 并执行计划中的每个具体算子,在不同 QE 间交换数据

第六步,Scan算子读取数据和索引

第七步, Master QE 负责第二阶段聚集和最终结果收集

3.数据模型

属于对象-关系型数据库,数据库的对象通常包括∶表、视图、函数、序列、索引、分区子表、外部表等,而对象-关系型则进一步支持用户自定义对象和它的属性,包括数据类型、函数、操作符,域和索引,甚至复杂的数据结构也可以被创建,存储和检索。

 image.png

(1)行存表,列存表,和外表

行存表∶数据按行存放,支持主键,B+树索引,Bitmap索引,GIN索引等,适合数据实时写入更新删除,点查,范围查。

列存表︰数据按列存放,高压缩比,适合追加写(少量更新删除)场景。

外表∶元数据存放在本地系统表,数据存放在OSS,支持的数据格式包括ORC,Parquet, CSV,JSON,支持表分区,其中ORC和Parquet支持列过滤和谓词下推,提升分析性能

除OSS外,同时也支持Hadoop ( HDFS,Hive )外表。image.png(2)表数据分布

将表数据均匀的分布到各个节点中,是发挥集群整体IO性能,提升存储容量,优化计算与网络传输效率的关键

image.png

Lineitem table分为三部分,定义分布键,按照 orderkey 分布,会对 orderkey 做哈希处理,会均匀分布到每个节点上,每个节点都存放用户表的一部分数据,根据业务语义定义分区,比如说按日期做分区,做好分区裁剪

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
7月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
7月前
|
SQL 分布式计算 DataWorks
破界·融合·进化:解码DataWorks与Hologres的湖仓一体实践
基于阿里云DataWorks与实时数仓Hologres,提供统一的大数据开发治理平台与全链路实时分析能力。DataWorks支持多行业数据集成与管理,Hologres实现海量数据的实时写入与高性能查询分析,二者深度融合,助力企业构建高效、实时的数据驱动决策体系,加速数字化升级。
|
10月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
961 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
10月前
|
存储 SQL 运维
中国联通网络资源湖仓一体应用实践
本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。
511 0
中国联通网络资源湖仓一体应用实践
|
10月前
|
存储 消息中间件 分布式计算
Hologres实时数仓在B站游戏的建设与实践
本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求,采用了Hologres作为核心组件优化传统Lambda架构,实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计(ODS、DWD、DIM、ADS)及关键技术挑战的解决方法,如高QPS点查、数据乱序重写等。目前,该实时数仓已广泛应用于运营分析、广告投放等多个场景,并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。
Hologres实时数仓在B站游戏的建设与实践
|
11月前
|
存储 分布式计算 MaxCompute
Hologres实时湖仓能力入门实践
本文由武润雪(栩染)撰写,介绍Hologres 3.0版本作为一体化实时湖仓平台的升级特性。其核心能力包括湖仓存储一体、多模式计算一体、分析服务一体及Data+AI一体,极大提升数据开发效率。文章详细解析了两种湖仓架构:MaxCompute + Hologres实现离线实时一体化,以及Hologres + DLF + OSS构建开放湖仓架构,并深入探讨元数据抽象、权限互通等重点功能,同时提供具体使用说明与Demo演示。
|
6月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
427 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
11月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。

推荐镜像

更多
  • DNS