MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI | 学习笔记

简介: 快速学习 MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI,介绍了 MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI系统机制, 以及在实际应用过程中如何使用。

发者学堂课程【SaaS 模式云数据仓库实战MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/332/detail/3721


MaxCompute 持续定义 Saas 模式云数据仓库

——云数据仓库+ BI

 

课题引入:

探讨 saas 模式下云数据仓库和商业智能 vi 中的新内容。


内容介绍:

一、云数据仓库概述

二、BI 使用场景与趋势

三、基于 MaxCompute 云数仓+ BI

四、实践案例


一、云数据仓库概述

数据市场趋势的举例:

预测到2025年,全球数据增长至175ZB,中国数据增长至48.6ZB。

预测到2023年中国 BI 软件市场年复合增长率为23%

019年第四季度中国云计算市场增长率为66.9%

image.png

在该市场前提下,观测云数据仓库的几大特点:

①大规模数据分析

②高性能

③灵活扩容

④低成本

image.png

数据的海量增长,云数据仓库需支持大规模的数据分析,同时在大规模的基础上满足高性能,还要灵活扩容,即目前的自建 ID 式的数据仓库,需要规划机器怎样运行,云数据仓库比较灵活,具有扩展性。其成本低,云端处理屏蔽底层以及低端的一些信息,处理主要信息成本自然低。总言之,云数据仓库可以让企业在短时间内创建并开始使用数据仓库服务,在更低的成本下,专注于业务,通过对大数据规模进行多样化的处理、挖掘、分析,快速获得业务洞察。

由前面数据市场趋势举例可知一个现象即:世界各地的企业均是利用并从数据中获取业务价值,随着企业数据量的扩大,市场随之变化快速发展,该前提下企业需要灵活、快速、安全应用的数据产品解决方案,从而快速对海量数据进行挖掘、分析,最大化的释放数据的潜力。


二、BI 使用场景与趋势

image.png

随着社会发展和数据量的爆发,数据出现新的发现途径:物联网、 IOT 等提供了大量数据。企业积累大量数据的前提下,所造就的企业期望是可以产生能够快速挖掘优良的数据对企业科学化决策的助力,同时商业智能 BI 也可助力企业,使用精细化运营或客户关系维护以及成本控制等等。

具体流程如下:

1.BI 场景概述:

商业智能 (BI,Business Intelligence) 是一种以提供决策分析性的运营数据为目的而建立的信息系统。

2.商业 BI 建立信息系统主要流程为:

首先进行数据接入(即将分散于企业内、外部各种数据集成整合)因为企业可能有线上、线下以及各种不同的关系数据处、半结构化、非结构化的各种数据来源,需要将这些数据整合,然后进行数据准备(是 ETL 阶段:数据抽取、转化、加载),即为数据仓内大数据的开发,数据的抽取、转化、加载再进行分析展现阶段。

将这些结果呈交给决策层,决策层通过这些数据进行经济化运营、客户化维护关系、成本运营控制得到助力,总言之, BI 将成为大数据时代企业提高竞争力的武器。

 image.png

3.BI 现状和趋势:

数据量的大爆涨,业务的快速增长,变化快,需要多种多样的各种分析需求以及及时查询,同时在大量数据基础互联网发展快速,很多企业信息获取通过网上或者其他途径直接获取,安全性和合规性受到重视,需要快速整合多系统数据,实现信息透明,以及构建统一的、简单易用的可视化分析平台,从而提高制表效率。这是商业智能 vi 系统的趋势。


三、基于 MaxCompute 云数仓+ BI

image.png

1.基于 MaxCompute 云数仓+ BI 的特性

MaxCompute是一项大数据计算服务,它能提供灵活快速、完全托管、高性能、低成本、安全的 PB 级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

注意流程,首先是一个数据源(云上应用数据还是原有数据中心有可能是自建的或是分散到其他业务系统的数据中)通过数据集成的方式存储到 MaxCompute ,MaxCompute 基本架构为底层底层集群为其本身搭建完毕的以及上层多重计算引擎和引擎之上提供各种服务的 API ,深度集成一站式大数据智能云研发平台 DataWorks 。在云数据仓库体系下,进行数据准备即清洗、加工、分析, MaxCompute 数据消费阶段。

image.png

总结 MaxCompute 云数据仓的特性:开箱即用,在线服务(免平台运维,总体拥有成本低)底层集群由 MaxCompute 搭建完毕,用户开通即可使用,无需关注底层运维,释放人员更加关注业务运维,降低整体成本。

极致弹性能力(弹性扩展,无需容量规划即可应对业务规模的快速变化)不需提前评估业务所需计算资源,直接可以使用可以随着业务快速的变化按需极致弹性的扩展,即计算资源按需自动的弹性极致;简单易用,多功能计算服务(多种计算模型,多种数据通道,外部数据源联邦计算) MaxCompute 支持 Batch、MapReduce、MachineLearning、spark、查询加速,支持多种计算引擎可以满足多重计算要求,多数据通道保存 MaxCompute 中离线的和实时的数据;企业级安全能力(多租户安全保证机制,细粒度授权,数据加密、脱敏,备份恢复)跨地域的数据云端备份,手机日志等完善的数据管理机制;生态融合(支持多样数据源、生态工具和标准)提供各种 API、CDBC, 支持多样数据源,生态工具和标准。

2. 基于 MaxCompute 云数仓及 BI 对接

image.png

MaxCompute 主要是进行存储和计算服务加上数据开发平台 DataWork 组成离线的云数据仓库,在此基础上深度集成 MaxCompute 之上,阿里云 Quick BI 报表工具,可以直接连接的一个 MaxCompute 的数据表,进行分析,还可以通过阿里云的另一个产品 Hologres ,通过该产品进行加速后无缝对接阿里云的 Quick BI ,第三方工具帆软、 Tableau,同时在生态方面的 JDBC 支持直接使用 Tableau 工具,企业或者客户对商业智能化方面会有多样化,个性化需求,对接工具不支持的情况可选择 SDK 方式连接到 MaxCompute 从而实现基于 MaxCompute 云数据仓库对接的商业智能的信息平台。

3. 基于 MaxCompute 交互式分析 (Hologres)+BI

image.png

离线数仓的高性能低延迟的分析查询:

交互式分析 Hologres 可以直接读取离线数仓 MaxCompute ,Hologres 支持多样化查询分析包括简单查询,复杂查询,点查询,联邦查询,联邦分析等等, Hologres 也有多种数据源,通过  MaxCompute+Hologres 组成 MaxCompute 交互式分析大数据生态下可以无缝对接Quick BI 、+ableau、帆软,同时因为 Hologres 兼容 house ground circle容易上手,通过该组合快速实现企业信息平台。


四、基于 MaxCompute 元数据仓库 +BI 实践案例

案例一:新零售案例

image.png

需求背景

用户基于 Hadoop 开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

由图可知,从线下的 IDC 数据源通过 MaxCompute 的迁移工具将全量数据上云,数据集成的工具将增量数据上云,之后通过 DataWorks+

MaxCompute 大数据解决方案对数据进行开发,即数据准备阶段,直接使用 QBI 产品对数据进行处理分析,通过该方案进行数字化转型,无论是线上或线下营销,还是企业内部的客户管理,数据化运营,以及交易、营销、会员、库存、商品等企业内部涵盖的管理,实现资产业务化的闭环。

客户价值:

基于飞天大数据平台产品 MaxCompute +DataWorks 大大提高了数据业务的开发效率,构建企业独有的数据中台体系。

案例二:新金融案例

image.png

需求背景:

金融业务数据,对安全管控有极高的需求,需要一个完整的安全管理体系,同时要满足个性化安全需求。

业务快速发展,需要能快速搭建、低成本、秒级扩展的数据中台体系。

MaxCompute 中存在按区使用的方式,无需用户提前购买硬件等,用户使用多少在集群中获取多少。基于 MaxCompute 的数据仓库基本架构同样是数据云的中一个上云,若其本身存在一部分数据在云上,接入之后,还通过 MaxCompute 中 SDK 方式去搭建自己的数据消费应用,例如:数据 API,数据分发,推送等个性化需求。最终缩短需求所用的时间,同时满足其需要完整的安全管理体系。

客户价值:

基于 MaxCompute 开箱即用的应用满足其在安全审计过程中的数据安全需求,缩短了需求响应时间并满足其在数据安全上的个性化需求。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。这种模式涉及对象(如用户、账户、商品等)及其相关的事件记录,通过这些事件数据可以进行各种统计分析,如漏斗分析、交易次数统计等。然而,SQL 在处理这类任务时表现不佳,特别是在有序计算方面。SPL 作为一种强化离散性和有序集合的语言,能够高效地处理这类计算,避免了大表 JOIN 和大结果集 GROUP BY 的性能瓶颈。通过按 ID 排序和分步计算,SPL 能够显著提高计算效率,并支持实时数据处理。
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
262 5
|
资源调度 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
240 2
|
Web App开发 编解码 Java
B/S基层卫生健康云HIS医院管理系统源码 SaaS模式 、Springboot框架
基层卫生健康云HIS系统采用云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医疗机构的主要工作流程,能够与监管系统有序对接,并能满足未来系统扩展的需要。
527 5
|
运维 监控 JavaScript
SaaS模式Java全套云HIS源码包含EMR、LIS
满足基层医院各类业务需求的云HIS系统。它能帮助基层医院完成日常各类业务,提供病患挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生站和护士站等一系列常规功能,实现多层机构之间的融合管理。
321 0
|
7月前
|
供应链 JavaScript 前端开发
Java基于SaaS模式多租户ERP系统源码
ERP,全称 Enterprise Resource Planning 即企业资源计划。是一种集成化的管理软件系统,它通过信息技术手段,将企业的各个业务流程和资源管理进行整合,以提高企业的运营效率和管理水平,它是一种先进的企业管理理念和信息化管理系统。 适用于小微企业的 SaaS模式多租户ERP管理系统, 采用最新的技术栈开发, 让企业简单上云。专注于小微企业的应用需求,如企业基本的进销存、询价,报价, 采购、销售、MRP生产制造、品质管理、仓库库存管理、财务应收付款, OA办公单据、CRM等。
434 23
|
9月前
|
运维 供应链 前端开发
中小医院云HIS系统源码,系统融合HIS与EMR功能,采用B/S架构与SaaS模式,快速交付并简化运维
这是一套专为中小医院和乡镇卫生院设计的云HIS系统源码,基于云端部署,采用B/S架构与SaaS模式,快速交付并简化运维。系统融合HIS与EMR功能,涵盖门诊挂号、预约管理、一体化电子病历、医生护士工作站、收费财务、药品进销存及统计分析等模块。技术栈包括前端Angular+Nginx,后端Java+Spring系列框架,数据库使用MySQL+MyCat。该系统实现患者管理、医嘱处理、费用结算、药品管控等核心业务全流程数字化,助力医疗机构提升效率和服务质量。
558 4
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。