MaxCompute 持续定义 SaaS 模式云数据仓库—云数据仓库+实时分析 | 学习笔记

简介: 快速学习 MaxCompute 持续定义 SaaS 模 式云数据仓库— 云数据仓库+实时分析

开发者学堂课程【 SaaS  模式云数据仓库系列课程 —— 2021数仓必修课MaxCompute  持续定义  SaaS  模式云数据仓库— 云数据仓库+实时分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1031


MaxCompute 持续定义 SaaS  模式云数据仓库— 云数据仓库+实时分析

内容介绍:

一、云数据仓库概述:

二、实时分析场景与价值

三、 MaxCompute 云数仓+实时分析

四、实时分析案例

一、云数据仓库概述

(一.1)数据仓库

image.png

1.什么是数仓:

数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。

2.数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的,规范的数据出口。

3.观点:数据仓库(模型)本质是人收集和存储数据,认识数据,组织和管理数据,使用数据决策的最佳实践形成的方法论;模型本身与在哪、用什么技术无关,但逻辑模型和物理模型在最终方案中又是紧密结合的。

 

(一.2)云数据仓库

image.png

1.数据仓库的核心能力和价值:采集同步、加工、存储、建模、治理、查询

2.为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容

3.总成本=核心能力成本+基础成本=产品成本+服务成本=当前成本+长期成本+演进成本

4.SaaS  模式云数据仓库:

1.开箱即用

2.丰富完善的数仓能力

3.大规模高性能

4.高可用,容灾备份

5.免运维、专家优化

6.极致安全

7.低成本

8.灵活扩展

9.能力快速演进

10.数据服务。

 

(一.3)云数据仓库支持多场景数仓应用

MaxCompute:SaaS  模式企业级云数据仓库

1.应用场景:

① 实时数据入仓和分析决策

② 业务运营场景-交互式业务指标计算、查询

③ 各行业搭建数据仓库-流批一体、湖仓一体

④ 云上弹性扩展大数据计算和存储

2.产品优势:

云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求

简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用

企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成

安全:多租户环境下安全控制能力强

大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证

3.推荐组合:

实时分析场景

-MaxCompute+MC-Hologres+Flink+DataWorks+Quick

机器学习场景-MaxCompute+PAI+DataWorks

(一.4)云数据仓库面向用户的功能和数据流程

image.png


二、实时分析场景与价值

(二.1)重提大数据 5V

·越接近数据源,越早进行分析和决策,越能发挥数据价值

image.png

1.容量(Volume)

是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化

2.速率(Velocity)

即数据生成、流动速率快。数据流动速率指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时

3.多样性(Variety)

指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据

4真实性(Veracity)

指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比

5.价值(Value)

即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。

 (二.2)实时分析的两种演化构建方式

类比1:大酒店同时具备其他综合业务,发展出餐饮(实时)业务,用以更好的发挥协同作用

演化1:以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构

类比2:饭店从餐饮(实时)业务发展而来,需要更好的外围支持作用,并向综合性发展

演化2:以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓。 

(二.3)实时分析的两种场景

image.png

1.以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成  Lambda  架构。

例如  IOT  设备监控分析,下发策略,设备接收后上报新数据立即进行分析,对比之前的结果,反复分析调优。

2.以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成  kappa  架构,后续还要考虑实时数据和模型如何入仓例如欺诈监控,必须第一时间获取分析结论,并关联标签精准识别,最后实时数据落入数仓与其他数据融合形成知识。

(二.4)数仓实时分析的能力要求

数仓实时分析的能力要求:

1.极速查询相应

2.实时存储

3.数仓查询加速

4.应用生态

5.实时离线联合计算和建模

 

三、MaxCompute  云数仓+实时分析

(三.1)常见的  Lambda  架构的问题

image.png

1.一致性难题

:2套语义、2套逻辑、2份数据:

两套代码,两套逻辑;流和批语义完全不同;离线层和实时层数据存储和变换方式完全不同。

:环环相扣、多套系统、运维复杂、成本高昂:

多个不同的系统;大量的同步任务;资源消耗巨大;不同系统标准规范不统一

:开发周期长、业务不敏捷:

错误难以诊断和定位;修订、补数周期长;无法自助实时分析;无法响应变化;分析到服务的转化周期长。

 (三.2)开源方案的能力发散

场景案例:搜索推荐精细化运营

image.png 

① KVStore:Redis/Mysql/Hbase/Cassandra  存储点查能力

② MPP: Impala/Presto/Drill   计算+查询能力

③ 实时数仓:Clickhouse/Druid   存储+计算+查询能力

④ 数仓:Hive/Spark/MaxCompute   存储+批处理

(多种能力统一于一个引擎。

 

(三.3)实时分析简单架构:实时写入和实时查询

1.实时离线数据统一存储

2.以实时分析为中心设计

3.MaxCompute  直接加速

image.png

 

 (三.4)数仓加速分析:无数据搬迁、数据分析效率高

 

image.png

 

 

 (三.5)开源方案实时数仓:实时成本高、开发周期长、业务支持不灵活

image.png 

 

1.kappa  架构,基于流式架构,需要回放和关联数仓,后续还要考虑实时数据和模型如何入仓。

2.Kappa  架构的原理就是在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次。

3.Kappa  架构看起来简洁,但实施难度相对较高,尤其是对于数据回放部分。

(三.6)实时、离线、分析、服务一体化方案

image.png 


四、实时分析案例

(四-1)常用场景:实时、离线、分析、服务一体化方案

1.方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景

2.方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;

3.涉及产品:日志服务  SLS、数据传输  DTS、DataHub、实时计算  Flink、交互式分析、云数仓  MaxCompute、数据治理  DataWorks、Quick BI  报表、DataV大屏、ES  搜索、机器学习  PAI

image.png 

(四-2)PB  级用户行为交互式分析案例

——友盟+是国内最大的移动应用统计服务商,其统计分析产品  U-App&U-Mini&U-Web  为开发者提供基本报表统计及自定义用户行为分析服务

image.png 

1.业务痛点:

1.业务数据量大,年新增行为数据  10PB  级

2.个性化、自定义地交互式用户行为分析强需求.

3.基于  MaxCompute  提供异步离线的  adhoc分析.

4.和优化、以及自研引擎开发尝试均无法满足业务需求

2.客户收益:

1.PB  级数据秒级查询响应,30s  交互式体验

2.与  MaxCompute  深度集成,能够利用  range cluster  索引加速,实时离线联邦查询,同时也可以实现冷热数据混合查询,有利于成本性能平衡

3.计算资源弹性伸缩,可兼顾扩展性、稳定性、性能、成本

(四-3)互联网内容资讯客户实时推荐案例

——小影是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破  8.9 亿

>SaaS  模式云数据仓库:

一套存储引擎、三种计算力量

MaxCompute(离线计算)+Realtime Compute(实时计算)+MC-Hologres(交互式分析)

1.用户标签数据开发:

客户通过  MaxCompute  针对每天  APP  产生的客户基础属性数据、行为日志数据、内容数据等进行计算,每天离线更新用户标签的数据,支持营销业务的使用。

2.用户画像实时洞察:

客户基于  MC  离线计算好的用户标签,通过  MC-Hologres 进行多标签、多维度的实时分析,了解用户属性标签与内容标签之间的关联性,洞察交叉销售机会,并通过人群圈选,进行  APP  消息  PUSH。

3.实时视频推荐:

客户通过  Flink+MaxCompute+MC-Hologres+PAI  搭建个性化实时推荐系统,基于用户特征和实时行为特征,实时推荐个性化的短视频内容。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
存储 数据采集 大数据
110 0
|
5月前
|
机器学习/深度学习 供应链 算法
仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!
仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!
138 0
|
7月前
|
供应链 JavaScript 前端开发
Java基于SaaS模式多租户ERP系统源码
ERP,全称 Enterprise Resource Planning 即企业资源计划。是一种集成化的管理软件系统,它通过信息技术手段,将企业的各个业务流程和资源管理进行整合,以提高企业的运营效率和管理水平,它是一种先进的企业管理理念和信息化管理系统。 适用于小微企业的 SaaS模式多租户ERP管理系统, 采用最新的技术栈开发, 让企业简单上云。专注于小微企业的应用需求,如企业基本的进销存、询价,报价, 采购、销售、MRP生产制造、品质管理、仓库库存管理、财务应收付款, OA办公单据、CRM等。
434 23
|
7月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
9月前
|
运维 供应链 前端开发
中小医院云HIS系统源码,系统融合HIS与EMR功能,采用B/S架构与SaaS模式,快速交付并简化运维
这是一套专为中小医院和乡镇卫生院设计的云HIS系统源码,基于云端部署,采用B/S架构与SaaS模式,快速交付并简化运维。系统融合HIS与EMR功能,涵盖门诊挂号、预约管理、一体化电子病历、医生护士工作站、收费财务、药品进销存及统计分析等模块。技术栈包括前端Angular+Nginx,后端Java+Spring系列框架,数据库使用MySQL+MyCat。该系统实现患者管理、医嘱处理、费用结算、药品管控等核心业务全流程数字化,助力医疗机构提升效率和服务质量。
558 4
|
11月前
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
352 19
|
存储 大数据
究竟什么是大数据,大数据具体应该怎么定义
【10月更文挑战第29天】大数据是指那些传统资料处理技术无法应对的海量数字信息,包括文本、音视频、电子邮件等多类型数据。它涉及数据的获取、分析、存储与传输,需借助专门的技术手段。大数据分析能够帮助企业洞察消费者行为、预测市场趋势,从而实现业务增长。随着数字化进程加快,高效管理与利用大数据成为企业面临的重大挑战。
394 2
|
数据采集 大数据 数据安全/隐私保护
大数据列表删除的定义
【10月更文挑战第23天】
182 1
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。