《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(上)——一、产品概述

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(上)——一、产品概述

1. 产品简介

 

云原生数据仓库AnalyticDB PostgreSQL版ADB PG是阿里云自研高性能、海量扩展数据仓库服务,兼容部分Oracle/Teradata语法生态,应用于阿里巴巴集团内部电商、物流、文娱、广告等业务部门,服务于阿里云的金融、政企、互联网等各行业用户,支持快速构建新一代云化数据仓库服务。

 

PB级数据实时响应能:MPP水平扩展架构,PB级数据查询秒级响应;向量化计算,及列存储智能索引,领先传统数据库引擎性能3x;新一代SQL优化器,实现复杂分析语句免调优。

稳定可靠、简化运维:飞天平台基于阿里多年大规模集群系统构筑经验打造,智能硬件管理,故障监控诊断自恢复,支持MPP数据库实现复杂集群系统高可靠,自运维。

SQL兼容性:可支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,OLAP窗口函数,视图等,完备功能和生态,实现应用快速适配、或迁移。

数据多模分析:通过PostGIS插件支持地理信息数据分析;内置100+机器学习算法库,实现数据智能探索;高性能向量检索算法,支持视频/图像检索以图搜图。

 

 

2. 发展历程

 

2017年,ADB PG(原HDB)诞生,内核PG 8.2。

2018年,ORCA优化器稀疏和聚簇索引,支持JSON数据类型OSS外表。

2019年,内核升级PG9.4,向量执行引擎1.0多MASTER,RBO优化器增强,支持高维向量检索,通过信通院&信创认证。

2020年,云原生升级,备份恢复能力增强包含物理备份和表逻辑备份,外表联邦分析,多维排序,向量执行引擎,通过TPC-H评测获得全球第一。

2021年,副本多活、分层存储、计算存储分离、HTAP增强、行列混存。

 

3. 产品定位

 

ADB PG兼容业内主流数仓架构方案,支持ETL离线处理,支持在线交互分析。通过高性能计算引擎及实时同步方案,支持在线数据随机探索,实时同步分析。

 

如图

RDS MySQL可以通过DTS入库。

流式计算Kafka/Flink可以通过Copy/Insert方式入库。

批量加载可以通过第三方工具Kettle/DSG。

OSS/MaxCompute可以通过Dataworks数据集成或者外表的方式导入。

数据开发作业调度支持DMS、Dataworks、Dataphin。

 

image.png

 

功能完备:基于PostgreSQL内核,SQL高度兼容Teradata/Oracle。

生态完备:与阿里云数仓开发平台Dataworks,数据中台Dataphin,数据同步工具DTS等无缝集成;支持业内主流第三方工具。

 

4. 产品特点和优势

 

性能强劲:TPC-H评测全球第一,超过90%的读写性能水平扩展比。

弹性:支持水平扩容,分布式弹性架构,PB级数据存储与分析。

遵循PG/GP:业界最主流数仓协议,兼容主流ETL/BI/可视化等生态工具。

简单易用:经历大规模验证,对标传统商业数仓的企业级特性。

 

5. 核心功能

 

1) PL/pgSQL过程语言

 

自定义函数&存储过程如下:

CREATE [OR REPLACE] {FUNCTION | STORED PROCEDURE} name
([[argmode] [argname] argtype [ { DEFAULT|=} default_expr][,...]])
[RETURNS rettype
 |RETURNS TABLE ( column_name column_type [, ...]) ]
LANGUAGE langname
WINDow
IMMUTABLE | STABLE |VOLATILE | [NOT] LEAKPROOF
| CALLED ON NULL INPUT | RETURNS NULL ON NULL INPUT | STRICT
[EXTERNAL] SECURITY INVOKER | [EXTERNAL] SECURITY DEFINER
| EXECUTE ON { ANY | MASTER | ALL SEGMENTS }
| COST execution_cost
SET configuration_parameter { TO value |= value| FROM CURRENT }
As definition
As'obj file,Link symbol'...
[WITH({DESCRIBE = describe_function
 }[, ...])}

  

2) CBO优化器

 

新一代cascade框架的SQL优化器,面向全并行执行架构,代价优化CBO和规则优化RBO相结合,实现复杂SQL免调优。

 

Top-Down路径搜索框架,搜索和路径选择更全面精准,避免出现局部查询路径最优解。

子查询自动改写为分布式JOIN,实现并行计算,规避手工改写调优。

SQL优化阶段定义动态分区裁剪,即支持确定性过滤条件,也支持参数化的过滤条件,减少I/O。

 

3) 资源负载管理

 

支持自定义执行队列,根据用户角色,其执行任务进入对应资源管控队列。任务队列支持设定:

 

并行执行任务数;

CPU优先级;

内存资源上限。

 

示例

如下图,用户可以自定义三个执行队列

 

image.png

 

ETL队列:赋予资源获取最低优先级。

BI报表队列:赋予资源获取最高优先级。

数据探索队列:赋予资源获取中间优先级。

 

4) 备份恢复方式丰富

 

AnalyticDB PostgreSQL版支持如下备份特点:

 

PITR备份恢复

RPO<10min

支持差异化全量备份

支持增量备份

支持分布式一致性恢复

支持表级逻辑备份

 

image.png

 

5) 支持丰富生态

 

ADB PG支持主流工具,包括阿里云提供的DataWorks、DTS、DMS、数据集成、Quickbi、DataV等工具以及第三方Kettle、DSG等工具。

 

image.png

 

6. 产品选型

 

ADB PG产品系列有两种:预留模式和弹性模式。

 

1) 预留模式

 

特点:兼容Greenplum/PostgreSQL。支持2c、4c和8c规格,不同规格之间支持在线升降配、秒级切换,不影响业务运行,适合数据实时写入(DTS),高并发、实时分析场景。

性价比:百万TPS实时写入,上百QPS查询。

可用性:支持单副本和双副本模式,数据保存在云盘,可用性99.9%。

 

2) 弹性模式

 

特点:采用云原生架构,存储和计算完全分离,支持更大存储量,存储成本低,支持秒级扩缩容。适合批量导入、低并发,复杂ETL分析场景。

性价比:百万TPS批量导入,几十QPS复杂分析查询。

可用性:所有数据保存在OSS上,计算双副本,可用性99.9%。

 

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
3天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
15 4
多模态文件信息抽取:技术解析与实践评测!
|
30天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
158 30
|
30天前
|
存储 网络协议 编译器
【C语言】深入解析C语言结构体:定义、声明与高级应用实践
通过根据需求合理选择结构体定义和声明的放置位置,并灵活结合动态内存分配、内存优化和数据结构设计,可以显著提高代码的可维护性和运行效率。在实际开发中,建议遵循以下原则: - **模块化设计**:尽可能封装实现细节,减少模块间的耦合。 - **内存管理**:明确动态分配与释放的责任,防止资源泄漏。 - **优化顺序**:合理排列结构体成员以减少内存占用。
133 14
|
30天前
|
存储 缓存 Python
Python中的装饰器深度解析与实践
在Python的世界里,装饰器如同一位神秘的魔法师,它拥有改变函数行为的能力。本文将揭开装饰器的神秘面纱,通过直观的代码示例,引导你理解其工作原理,并掌握如何在实际项目中灵活运用这一强大的工具。从基础到进阶,我们将一起探索装饰器的魅力所在。
|
30天前
|
监控 搜索推荐 测试技术
电商API的测试与用途:深度解析与实践
在电子商务蓬勃发展的今天,电商API成为连接电商平台、商家、消费者和第三方开发者的重要桥梁。本文深入探讨了电商API的核心功能,包括订单管理、商品管理、用户管理、支付管理和物流管理,并介绍了有效的测试技巧,如理解API文档、设计测试用例、搭建测试环境、自动化测试、压力测试、安全性测试等。文章还详细阐述了电商API的多样化用途,如商品信息获取、订单管理自动化、用户数据管理、库存同步、物流跟踪、支付处理、促销活动管理、评价管理、数据报告和分析、扩展平台功能及跨境电商等,旨在为开发者和电商平台提供有益的参考。
40 0
|
关系型数据库 分布式数据库 PolarDB
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
379 0
|
存储 缓存 关系型数据库
|
存储 SQL 并行计算
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(中)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
436 0
|
存储 算法 安全
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(下)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
395 0
|
关系型数据库 分布式数据库 开发工具