HSAP 理念与 Hologres 设计原理(一)|学习笔记

简介: 快速学习 HSAP 理念与 Hologres 设计原理(一)

开发者学堂课程【实时数仓 Hologres 实战课程HSAP 理念与 Hologres 设计原理(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/904/detail/14367


HSAP 理念与 Hologres 设计原理(一)


目录:

一、公司开发中的大数据

二,传统技术介绍

三,新一代技术理念 HSAP:分析,服务一体化

四,几种典型的应用场景介绍

五,常见的应用案例分析

六,课后学习资源分享

 

一、公司开发中的大数据

典型业务场景列举

image.png

l 简介:Hologres 的典型业务场景,主要有实时大屏,实时报表,用户画像,监控预警。

Ø 实时大屏主要应用在一些大型活动现场或者是公司重要决策会议现场使用;

Ø 实时报表主要应用运维场景,公司总裁也比较青睐于实时报表的使用;

Ø 用户画像在数据推送时应用的较多;

² 预警监控主要应用于浏览器流量监控,用户上线监控等方面。


二、传统技术介绍

传统数据仓库数据流程

image.png

批量数据分析流程

l T+0 数据接入

l 多种数据源接入

l 定时数据开发与应用

l 数据提取/数据转换/数据

加载

l ODs 数据处理.DWD 标准数据场景. MDM 元数据

l 数据集市应用

l 核心痛点

l ETL 计算/存储/时间成本过高

l 数据处理链路过长

l 无法支持实时/近实时数据分析

问题:缺陷多,无法适应新的业务场景,逐渐被市场淘汰。

Lambda 架构的问题:

1.由多种引擎和系统组合而成,开发和维护成本高,学习成本高

2.数据在不同的 View 中存储多份,空间浪费,数据一致性的问题如何解决

3.从使用上来说, Batch, Streaming 及 MergeQuery 均使用不同的 language,使用起来并不容易

image.png

问题一:Lambda架构组成复杂,由多种引擎和系统组成,如离线数仓,开源的 Have。

问题二:易造成数据冗余,导致存储空间浪费且数据一致性的问题难以统一

问题三:学习成本高,学习周期长。

阿里业务场景原架构

image.png


三、新一代技术理念 HSAP:分析,服务一体化

image.png

HSAP 简介:

核心是具备一套强大的存储系统,能够将实时的数据以及离线的数据存入系统之内。

与此同时,高效的数据查询服务能够支持很高的 QBS 的点查询及复杂的分析,联邦的查询分析。理论上具备一套这样的存储引擎及查询引擎,我们就能够将实时的数据以及离线的数据都导入到一个系统里面去,最后在前端的数据应用,BI 报表以及一些的在线服务都可以直接对接到这个系统里面去,如此,便解决了搭建架构的复杂问题了。如今,人们将这样的设计理念称之为 HSAP。

理念的体现产品便是 Hologres。

Hologres 交互式分析

基于 HSAP 理念,兼容 PostgreSQL 生态、支持 MaxCompute 数据直接查询,支持实时写入实时查询,"卖时离线联邦分析,低成本、高时效、快速构筑企业实时数据仓库。

下图中黄色的部分都是可以放入容器之中的,整个分布系统是能够做一个高度容错的产品的;因为 Hologres 兼容了 PostgreSQL 生态,所以市场上的一些开源或者是商业化的 BI 工具,webid 以及能够与 PostgreSQL 打通并能够与 Hologres 进行对接的一些工具

特点:

统一存储

Ø Point Query(Hbase场景)

Ø Ad-hoc Query(Druid场景)

Ø OLAP Query(impala场景)

以实时分析为中心设计

设计理念就是快速反应需求

Ø 极速查询响应

Ø 支持实时写入、批量效据导入

Ø 超高导入性能

存储计算分离

Ø 存储计算分离架构,弹性扩缩容

Ø 异构数据源交互式分析

Ø MaxCompute 无缝打通

PG 生态

Ø PG 开发工具

Ø Bl 工具对接

Ø DataWorks —站式开发平台

存储计算分离

image.png

传统的分布式储存里,较为常见的是 Storeage Area Network。Storeage Area Network 就好比一个集群,集群上面挂载了许多的盘使得其他的计算机节点都能够看到这些盘。第二种便是现在的 Interconnect NetWork,它的特点是计算机各节点之间可以相互通信,但是各个盘之间是不通的,缺点是易造成资源的浪费。第三种是大磁盘与缓存之间的高效配合使用。好处易扩容,好管理。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
数据采集 人工智能 算法
|
Web App开发 编解码 监控
【Azure 媒体服务】Azure Media Player 在Edge浏览器中不能播放视频问题的分析与解决
【Azure 媒体服务】Azure Media Player 在Edge浏览器中不能播放视频问题的分析与解决
628 0
|
Go 调度
Golang语言goroutine协程篇
这篇文章是关于Go语言goroutine协程的详细教程,涵盖了并发编程的常见术语、goroutine的创建和调度、使用sync.WaitGroup控制协程退出以及如何通过GOMAXPROCS设置程序并发时占用的CPU逻辑核心数。
691 4
Golang语言goroutine协程篇
|
存储 JavaScript 前端开发
`forEach()`方法和`map()`方法哪个执行效率更高?
`forEach()`方法和`map()`方法哪个执行效率更高?
|
存储 Shell Linux
【看表情包学Linux】插叙:实现简易的 Shell | 通过内建命令实现路径切换 | 再次理解环境变量
【看表情包学Linux】插叙:实现简易的 Shell | 通过内建命令实现路径切换 | 再次理解环境变量
234 0
|
机器学习/深度学习 人工智能 自然语言处理
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
187 0
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
|
SQL 存储 大数据
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
6853 2
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
|
存储 XML 网络协议
学了这么久的Java,你知道Java的特性吗?
学了这么久的Java,你知道Java的特性吗?
264 3
|
存储 SQL 缓存
Hologres揭秘:深度解析高效率分布式查询引擎
从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologers,请大家持续关注!
12752 4
Hologres揭秘:深度解析高效率分布式查询引擎