Hologres 总体架构|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 Hologres 总体架构

开发者学堂课程【《实时数仓入门课程》Hologres 总体架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13890


Hologres 总体架构


典型业务场景举例

实时大屏、实时 BI 报表、用户画像、监控预警

 

传统数据仓库数据处理流程

图片44.png批量数据分析流程:

·T+1 数据接入

·多种数据源接入

 

·定时数据开发与应用

·数据提取/数据转换/数据加载

·ODS 数据处理

·DWD 标准数据场景

·MDM 元数据

·数据集市应用

 

·核心痛点

·ETL 计算/存储/时间成本过高

·数据处理链路过长

·无法支持实时/近实时数据分析

 

Lambda:割裂的架构,需要变革

图片45.png

架构复杂、数据同步难、资源消耗大、数据孤岛、人才培养难、开发成本高、不敏捷

 

 

 

阿里业务场景原架构

图片46.png

下一代实时数仓如何选型

·实时写入、实时计算、实时洞察

·实时离线一体化,减少数据移动

·业务与技术解耦,支持自助式分析

·拥抱标准,拥抱生态,拥抱云原生

图片47.png

Analytics

·大规模数据扫描、过滤、汇总,语义层,分布式,列式存储,面向分析师

Hybrid Serving/Analytics Processing(HSAP)

·一个系统,两种查询场景(分析、服务)

·无事务开销(锁、同步)

·行为数据、日志数据、比TP高数量级、高吞吐写入

·以数仓模型(抽象、复用、标准)解决数据服务的问题

 

Serving

·高并发、查询简单、快速,面向在线应用(toC)

Hybrid Transaction/Analytics Processing(HTAP)

·数据来源于业务系统(TP)

·需要事务机制保证 ACID

·需要保证 TP 和 AP 的一致性(数据、模型,大量同步)

·适合模型简单,简单分析场景,以TP模型解决AP的问题

Transaction

·随机读写、支持事务 ACID、锁、面向 DBA

 

新一代技术理念 HSAP:分析、服务一体化

离线数据和实时数据都在统一数据存储里,然后再统一服务;数据应用包括数据报告、数据看板、在线应用。

图片48.png

图片49.png

阿里搜索推荐:从 N 到 1,Hologres 简化大数据架构

业务敏捷响应,数据自动分析,避免数据割裂,赋能数据服务,简化运维管理

 

Hologres=Better OLAP+Better Serving+Cost Reduced

Hologres,基 于 HSAP 理念,云原生分布式分析引擎,支持对PB级数据进行高并发、低延时的分析,支持实时数仓,大数据交互式分析等场景。

 

分析服务一体化

·Point Query(毫秒级,用于 API 服务,类 Hbase、Redis 场景)

·OLAP Query(PB 级复杂查询,毫秒级交互式分析,类 Presto、Impala、Druid、ClickHouse、Kylin 场 景)

 

以实时为中心设计

·极速查询响应、毫秒级

·支持实时写入、实时更新、写入即可查

·Flink、Spark、DataX 超高导入性能

 

计算存储分离

·云原生架构,弹性扩缩容,成本更低

·与 MaxCompute 存 储无缝打通,减少数据搬迁,透明加速,支持交互式分析能力

 

丰富生态

·兼容 PG 语法,支持 PG 开发运维工具

·无缝 BI 工具对接

·GIS 地理分析能力

·达摩院 Proxima 向量检索能力

 

 

Hologres 架构

图片50.png

Frontend:认证、解析、优化

Worker Node:计算资源

HOS:轻量级调度框架

Shard:数据分片

Cache:分层缓存

Resource:容器资源管理

Store:元数据管理

 

存储计算分离

图片51.png

流批统一的存储

图片52.png

图片53.png

Hologres:为分析服务一体化设计的实时数仓

云原生(存储计算分离架构)

·计算存储资源弹性扩展,按需使用

·低成本、高可用、高可靠

·与 MaxCompute 底层打通,透明加速,实时离线一体

 

统一存储(流批统一的存储)

·行列共存,列存对分析友好,行存对点查快速

·高数数据分片、分段、压缩、索引

·LSM-like 写友好数据结构,高吞吐数据写入,支持更新,写入即可见

 

极致性能(C++ Native执行引擎+优化器)

·向量化、全异步等执行引擎优化

·轻量级用户态线程调度,同时支持多种查询负载(高并发、复杂统计)

·公平调度算法(CFS),高并发充分利用计算资源

 

交互式分析典型应用场景

离线数据查询加速:

对离线数据秒级交互式查询响应,无需额外 ETL 工作,便捷地把冷数据转换成易于理解的分析结果,提升企业决策效率,降低时间成本

实时离线联邦计算:

基于实时计算引擎 RealtimeCompute、离线数仓 MaxCompute 和交互式分析,从商业逻辑出发,实现离线数据分析实时化,实时离线联合分析,构筑实时全链路精细化运营

实时数仓:

实时数仓旨在通过搭建用户洞察体系,实时监测平台用户情况,并从不同视角对用户进行实时诊断,进而采取针对性的用户运营策略,从而达到精细化用户运营目的。助力实时精细化运营

 

 

 

阿里客户体验系统(CCO)实时数仓改造

图片54.png

业务难点:

·数据复杂度高,加购、下单、支付、售后全渠道,90 %实时数据

·数据量大,日志(千万/秒),交易(百万/秒),咨询(万/秒)

·场景丰富,实时监控大屏,实时交互式分析数据产品,ToC线上应用

技术架构:

DataHub + Flink + Hologres + MaxCompute

收益:

·整体硬件资源成本下降 30+%

·高吞吐实时写入:支持了行存千万/秒,列存几十万/秒写入要求

·简化实时链路:面向公共层的开发和复用

·统一服务:同时支撑了多维分析和高 QPS 服务化查询场景

·MC-Hologres 查 询服务:2020 双 11 当天查询 latency 平均 142 ms,99.99% 的查询在 200ms 以内

·支撑 200+ 实时数据大屏搭建,为近 300+ 小 二提供稳定的数据查询服务

 

菜鸟:智能物流

菜鸟智能物流分析引擎是基于搜索架构建设的物流查询平台,日均处理包裹事件几十亿,承载了菜鸟物流数据的大部分处理任务。图片55.png

需求诉求:

·HBase 的架构下维表数据导入耗时长、资源浪费严重、成本高

·HBase 不能同时满足 PointQuery 和 OLAP 分析,数据导入导出引发数据孤岛、数据同步负担、冗余存储、运维成本和数据不一致等问题

客户收益:

·整体硬件资源成本下降 60%+

·更快的全链路处理速度( 2 亿记录端到端 3  分钟)

·一个系统,满 KV 和 OLAP 两个场景,没有数据冗余

·解决大维表实时 SOL 查询需求

·强 Schema,有效避免潜在错误,节省时间。

 

友盟+:PB 级用户行为交互式分析

友盟+是国内最大的移动应用统计服务商,其统计分析产品 U-App&U-Mini & U-Web 为开发者提供基本报表统计及自定义用户行为分析服务,支持精细化运营。

图片56.png

业务痛点:

·业务数据量大,年新增行为数据 10PB 级,个性化、自定义地交互式用户行为分析强需求

·基于 MaxCompute 提供异步离线的 adhoc 分析和优化、以及自研引擎开发尝试均无法满足业务需求

·导出到 mysql/Hbase 方案的二次开发和数据导出链路长、成本高、操作不灵活

客户收益:

·PB 级数据毫秒级查询响应

·与 MaxCompute 深度集成,能够利用 rangecluster 索引加速,实时离线联邦查询,同时也可以实现冷热数据混合查询,有利于成本性能平衡

·计算资源弹性伸缩,可兼顾扩展性、稳定性、性能、成本。

 

实时推荐、API as service

实时推荐(特征查询、实时指标计算、向量检索召回),提高广告留 存率,Flink+PAI+Hologres withProxima

图片57.png

客户收益:

·支持 2000 万日活用户快速向量检索, 千万级 u2u,i2i  均可以 20ms 返回

·通过 SQL 描述业务逻辑,无需手工编码

(select a,b.proxima_distance(c) as distancefrom table order by distance desc limit k:)

·加工逻辑简化,无需额外集群  (Redis)

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
6天前
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
120 81
|
5月前
|
存储 边缘计算 运维
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
75 2
|
2月前
|
消息中间件 Java Kafka
实时数仓Kappa架构:从入门到实战
【11月更文挑战第24天】随着大数据技术的不断发展,企业对实时数据处理和分析的需求日益增长。实时数仓(Real-Time Data Warehouse, RTDW)应运而生,其中Kappa架构作为一种简化的数据处理架构,通过统一的流处理框架,解决了传统Lambda架构中批处理和实时处理的复杂性。本文将深入探讨Kappa架构的历史背景、业务场景、功能点、优缺点、解决的问题以及底层原理,并详细介绍如何使用Java语言快速搭建一套实时数仓。
208 4
|
2月前
|
存储 SQL 缓存
AnalyticDB 实时数仓架构解析
AnalyticDB 是阿里云自研的 OLAP 数据库,广泛应用于行为分析、数据报表、金融风控等应用场景,可支持 100 trillion 行记录、10PB 量级的数据规模,亚秒级完成交互式分析查询。本文是对 《 AnalyticDB: Real-time OLAP Database System at Alibaba Cloud 》的学习总结。
72 1
|
4月前
|
存储 SQL Cloud Native
Hologres 的架构设计与工作原理
【9月更文第1天】随着大数据时代的到来,实时分析和处理数据的需求日益增长。传统的数据仓库在处理大规模实时数据分析时逐渐显露出性能瓶颈。为了解决这些问题,阿里巴巴集团研发了一款名为 Hologres 的新型云原生交互式分析数据库。Hologres 能够支持 SQL 查询,并且能够实现实时的数据写入和查询,这使得它成为处理大规模实时数据的理想选择。
171 2
|
5月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
176 1
|
8月前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
316 0
|
7月前
|
存储 SQL BI
深入解析实时数仓Doris:介绍、架构剖析、应用场景与数据划分细节
深入解析实时数仓Doris:介绍、架构剖析、应用场景与数据划分细节
|
8月前
|
架构师 网络协议 算法
Android高级架构师整理面试经历发现?(大厂面经+学习笔记(1)
Android高级架构师整理面试经历发现?(大厂面经+学习笔记(1)
|
8月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
197 1

热门文章

最新文章