1.一站式大数据开发治理平台 DataWorks 入门(一)|学习笔记

简介: 快速学习1.一站式大数据开发治理平台 DataWorks 入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1227


1.一站式大数据开发治理平台 DataWorks 入门(一)


内容介绍:

企业数字化转型的挑战

二、DataWorks 前世今生

三、DataWorks 核心能力

四、产品方案及案例

五、产品商业化及总结

内容简介:

一共有五个部分,第一块是企业数字化转型中所面临的挑战和困难,第二块介绍发展了十一年的 DataWorks 前世今生有什么样的故事,第三块介绍 DataWorks 的核心能力,包括不同的模块以及不同的功能的简要概述,第四块是基于 DataWorks 的产品方案以及客户案例,最后是产品商业化以及针对所有内容的小结。


一、企业数字化转型的挑战

image.png

1、数据孤岛时代

各业务系统的数据表独立服务单一的业务系统

数据库

数据建模-建表-数据库备份

2BI时代

主要支持BI数据分析和报表系统,响应即席查询

基础数据仓库

数据汇集-数仓建模-历史存档

3、DI时代(数据智能)

为DI数据智能应用提供高保障的数据

数据中台

全域数汇聚-数据融合加工-数据治理体系-数据共享开放

目前经历的是数据智能的时代,包括现在阿里巴巴在外面提到的数据中台的概念,也有很多企业开始用数据中台的理念作为它企业的数字化转型的基础设施,通过数据中台实现全域数汇聚数据融合加工数据治理体系数据共享开放数据中台它其实不是一个具体的产品,但是可以通过DataWorks以及它下面的计算引擎,非常好的完成企业数据中台的建设

4、企业/政府数据中台建设面临的核心痛点

(1)数据孤岛

数据不集中、重复存储、重复计算,数据分散无法连接有非常多的业务系统把数据分散在各个不同的角落,会导致的数据的重复计算,重复的存储以及数据无法做有效的连接

(2)数据开发和运维成本高

自研数据平台难度大、成本高,扩展性、稳定性、数据质量难以满足业务快速增长数据开发和运维的成本相对而言是比较高的,如果采用开源的技术体系,要真的满足企业在一个业务快速增长当中的扩展性稳定性的要求,所投入的成本还是非常的高。

(3)数据共享应用不易

数仓中的数据对接各类BI或应用不便,数据难以在不同部门门和合作伙伴之间共享数据共享数据的应用和服务,阿里巴巴在这些年的建设过程中会认为里面核心的问题还是数据共享的安全问题。沉淀了非常多的经验,可以保证企业在满足安全的情况下非常好的进行数据共享与应用。

(4)大规模数据难以治理

随着数据规模的不断增大,数据治理越发难以进行,数据质量、监控、安全逐渐成为瓶颈随着开始建设数据中台会有非常多的数据,从各种各样的地方不断的源源汇过来,会造成数据中台的数据开始有一个爆发式的增长,如何在大的规模下去进行比较好的数据治理,包括进行数据质量的发现和监控,逐渐会成为企业,政府数据中台面临比较核心的问题。


二、DataWorks 前世今生

阿里巴巴在11年当中都是通过 DataWorks 以及底层的计算引擎 maxcompute 进行的数据中台建设

1、DataWorks :站式大数据开发治理平台

DataWorks 它本身不做大数据的计算和存储,它是基于的各种大数据计算引擎DataWorks 基于 MaxCompute/EMR/MC Hologres 等大数据计算引擎为客户提供专业高效、安全可靠的站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。

image.png

通过这个图可以看见底层灰色的部分是计算存储引擎,上面实现数据集成、全域的数据集成、数据中心、任务调度、数据开发以及数据治理,这样一个架构逻辑。

2、阿里巴巴十一年数据中台建设黄金搭档

(1)阿里巴巴在11年中都是通过都DataWorks以及底层的计算引擎MaxCompute进行的数据中台建设的,基于飞天大数据平台和飞天AI平台,平台内部,比如芝麻信用,数据银行,生意参谋等各个数据应用,包括集团的数据业务,比如钉钉,淘宝,天猫,支付宝等等,所有的内容,数据的业务,数据应用都是通过底层的MaxCompute计算引擎加一站式开发与治理平台DataWorks做支撑的。

22019年双11 , DataWorks 支撑F万级日调度, MaxCompute 大数据计算引|擎处理982PB数据阿里巴巴所有数据的开发与加工几乎都是放在这两个产品上面。

32018财年全球最大的移动经济实体集团全年GMV 4.82万亿集团全年收入2502亿月活跃用户数6.17亿全年收入增幅88%单日处理数据600PB单日任务调度数1000万实时计算17.18亿条/秒个性化推荐453亿次支撑集团99%数据业务构建支持集团99%数据应用构建数据资产智能监控数据分析数据质量数据安全数据共享统一调度统一编排MaxCompute 大规模离线计算引擎E-MapReduce 开源大数据计算引擎Real-timeCompute 实时计算引擎PAI机器学习平台交互式模型训练模型在线预测大规模分布式训练

3、飞天大数据平台:阿里巴巴十-年大数据&AI最佳实践

1)2009

进入空气稀薄地带,开源?自研?飞天的第一行代码,阿里云技术之路的起点。

2)2015

登月计划,突破调度5000台服务器,投10年,投10个亿,中国第一家拥有完整的云计算能力的企业,一飞冲天。

3)2016

全球化,飞天云操作系统获得中国,电子学会16年来颁发的唯一科技迸步奖特等奖

4)2017

商业化,阿里云大数据品牌“数加”20+款大数据产品MaxCompute+DataWorks 普惠大数据

5)2018

驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 一站式智能云研发平台飞天X城市大脑2.0

6)2019

飞天大数据平台,中国唯一自研计算引擎,规模最大、数据处理能力最强,数据综合治理体系,AI加持的飞天大数据平台

最开始产品在2006年 DataWorks 就立项了那个时候也是阿里云刚成立的日子,在15年时,当这个产品发展到一定程度时,整个集团开始了轰轰烈烈的登月计划,开始把所有的计算的存储都放到 MaxCompute 之前,的odps上面,把任务的调度与开发全都放在 DataWorks 上面,包括后面的2016年、2017年、2018年通过阿里云做全球化商业化的输出,去赋能各行各业,去普惠大数据相关的内容在2019年时,开始真正把一整套的大数据以Al的最佳实践统一到飞大数据平台上面里面包括的自研的计算引擎 MaxCompute,它拥有规模最大数据能力处理能力最强的一个大数据计算引擎,以及的 DataWorks 自带的阿里巴巴数据治理的最佳实践包含它自身的数据开发等一系列的功能,以及各种各样的比如emr,实时计算、Hologres图计算等各种各样的引擎都包含在飞天大数据平台里面,并且它和AI机器学习相关的平台能够互为补充,形成一个双生的系统能够帮助企业更好的去落地大数据Al的最佳实践,这个就是整个 DataWorks 从09年一直发展到2022年,整个11年的一个发展历程。

4、DataWorks :飞天大数据平台操作系统

DataWorks 它是整个飞天大数据平台的操作系统,比如的数据存储和计算会分布在底层的各种各样不同的引擎上面,它有可能是自研的 MaxCompute 的,有可能是开源的 mr也有可能是实时的 flink或者各种各样的引擎,但是这些引擎,如果让们非常高效的跑起来,非常高效运用起来,必须要有一个图形化、界面化站式的开发和治理的系统,才能够让这些数据去进行比较好的应用。比如光有一个硬盘,存储了很多的数据,但是如果没有一个操作系统来对硬盘进行比较好的,假设目录结构查询数据的复制链接,其实效率是比较低的,通过DataWorks加上大数据引擎,能够赋能各个行业里面的数据,智能相关的应用这个是DataWorks在飞天大数据平台中的定位。

8大核心引擎+1个操作系统

(1)DataWorks一站式大数据开发治理平台

全域数据集成,跨引擎智能云上开发,大数据综合治理。

(2)阿里大数据计算引擎

BigBench评测全球第一,规模最大,可扩展到10万台

(3)开源大数据计算引擎

打破多项世界纪录,全球首个通过TPC公认证的公共云产品

(4)实时大数据计算引肇

Apache Flink团队官方出品,首批通过流计算产品能力测评产品。

(5)图计算引擎

应用集团内50多个业务场景,支持百亿点、千亿边规模的超大图存储。

(6)交互式分析引擎

PB级数据亚秒级查询与实时计算引擎构建实时数仓

(7)智能推荐引擎

领先的算法及模型能力,阿里巴巴智能推荐技术输出,自研分布式搜索引QPS峰值近百万,阿里巴巴搜索服务技术输出。

(8)开源搜索引擎降低成本并大幅提升原生性能,100%兼容开源 Elasticsearch

5.DataWorks 产品架构

image.png

通过架构图更加详细的展示出DataWorks整个的产品架构是什么,底层是大数计算引擎,在数据集成这一步,会通过权益的数据集成,支持批量增量实时的各种各样的数据同步把数据导到的计算引擎中,会进行统一的数据以及统一的任务调度,这个在整个产品架构中成起到了一个承上启下的作用,不管是底层的数据以及上面要基于数据开发以及和数据治理都是非常核心的板块。在数据开发这一层,会有非常多的不同的 studio比如有离线的,有实时的studio,有交互式分析studio,基于这些数据开发,还可以进行数据相关的治理的内容,以及统的数据服务对外做共享。最后是的 open API,也是下半年重磅发布的一个开放平台,就是企业可以基于API系统进行定制化需求功能的实现。

6DataWorks 产品核心价值

DataWorks + MaxCompute 阿里巴巴大数据建设最佳实践与方法论的“十年”结晶只需要在云上通过云源生的形式开箱 “一日”即可拥有如果选用了emr或者 Hologres 或者实时计算大数据相关的引擎,也可以通过 DataWorks 做这样的实现这个是产品的核心价值。

(1)功能健全

一站式全域数据平台性能卓越,覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度

(2)便捷易用

云上全图形化操作界面,图形代码互转,1小时上手大数据全流程研发;阿里数千名运营小二都在用

(3)降本提效

云原生、全托管,开箱即用,相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。

(4)安全稳定

租户隔离,细粒度,权限控制,金融级数据安全保障;通过“双11"稳定性考验

7DataWorks 合规认证及荣誉奖项

公安部信息安全等保三级认证

中国信通院&数据中心联盟数据集成工具能力评测认证

中国电子技术标准化研究院信息技术大数据系统通用规范认证

中国信通院&数据中心联盟数据管理工具能力评测认证

2017年中国国际软件博览会金奖

2018年中国国际大数据产业博览会"十佳大数据案例”

2018年中国数字化转型与创新评选“最佳大数据产品奖"

入选 The Forrester Wave : Cloud Data Warehouse, Q4 2018报告,领跑Contenders 分组

2019年大数据产业峰会”年度大数据创新产品”

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
分布式计算 数据处理 MaxCompute
MaxCompute单字段拆分多行多列
数据导入MaxCompute后,需要把某个字段String类型(多键值(key-value )对 ) 拆分成多行,每行有都有key, value两列。比如“{k1:v1,k2:v2,k3:k4}” 拆成多行,每行两个值key,value 分别为k1,v1;k2,v2;k3;k4。
4474 0
|
前端开发 JavaScript Java
基于Java+Springboot+Vue开发的服装商城管理系统
基于Java+Springboot+Vue开发的服装商城管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Java的服装商城管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。
368 2
基于Java+Springboot+Vue开发的服装商城管理系统
|
8月前
|
Kubernetes Linux 网络安全
CentOS 7.8下使用kubeadm安装Kubernetes 1.26
这就是所有的前线报告,冒险家们,你们已经做好准备,开始在CentOS 7.8上通过Kubeadm安装Kubernetes 1.26的挑战了吗?走上这段旅程,让你的代码飞翔吧。
229 16
|
11月前
|
安全 网络协议 网络安全
如何免费使用锐安盾实现网站CDN加速与安全防护(2025版)
锐安盾是专为中小型网站设计的高性价比高防CDN,提供CDN加速、DDoS/CC防护及常见WEB攻击防护,适合个人站长、中小企业、国企和政府官网。基础版可免费使用一年,配置简单快捷,支持一键开启。基于天翼云平台,拥有2000+节点,确保稳定加速。国内运营需ICP备案,超流量可升级套餐,无额外费用。
如何免费使用锐安盾实现网站CDN加速与安全防护(2025版)
|
SQL 分布式计算 大数据
Paimon 与 Spark 的集成(二):查询优化
通过一系列优化,我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%,已基本和 Parquet x Spark 持平,本文对其中的关键优化点进行了详细介绍。
119383 30
|
传感器 数据采集 监控
物联网 GE-PREDIX
GE-Predix 是一个由通用电气公司开发的工业互联网平台,旨在为工业设备提供连接、分析和管理服务。它支持设备数据的收集与分析,帮助企业优化运营效率,实现智能化转型。
|
SQL NoSQL 数据库
开发效率与灵活性:SQL vs NoSQL
【8月更文第24天】随着大数据和实时应用的兴起,数据库技术也在不断发展以适应新的需求。传统的SQL(结构化查询语言)数据库因其成熟的数据管理机制而被广泛使用,而NoSQL(Not Only SQL)数据库则以其灵活性和扩展性赢得了众多开发者的青睐。本文将从开发者的视角出发,探讨这两种数据库类型的优缺点,并通过具体的代码示例来说明它们在实际开发中的应用。
312 1
|
存储 安全 大数据
CDGA|数据流通新策略:高效利用,解锁数字经济新动能
在数字化时代,数据成为推动经济社会发展的关键要素。然而,数据孤岛、安全隐私及标准化不足等问题制约了其高效利用。本文探讨数据流通的新策略,包括强化数据治理、技术创新、安全保护及标准化建设,旨在构建高效利用体系,赋能数字经济高质量发展,激发数据要素潜能,推动产业升级与经济转型。
|
Android开发 iOS开发
Charles模拟弱网
Charles模拟弱网,适用PC端和移动端(IOS/Android)
790 0
Charles模拟弱网
|
机器学习/深度学习 存储 人工智能
AI大咖说-李飞飞高徒/特斯拉前AI总监出的最新AI课程
今天要推荐一位AI界的大神Andrej Karpathy的几门大模型的开源项目和课程,希望对你有帮助【7月更文挑战第1天】
424 0