视频-《 EMR 数据开发》|学习笔记(三)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习视频-《 EMR 数据开发》

开发者学堂课程企业运维训练营之大数据 EMR 原理与实践视频-《 EMR 数据开发》学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1242/detail/18468


视频-《EMR 数据开发》

12、快速分析服务——数据快速使用

快速分析服务、SQL 查询,等等。

image.png

上图是 SQL 查询的示意图,当一个语句可能查出一些数据之后,想要它像类似 excel 那种拖拽的可视化建表的一个能力,这里进行字段的勾选,最后,再进行一些聚合操作,设计一些指标,来通过各种类型的像折线图、柱状图,上面这个是柱状图,下面的这个是饼图,分别对不同的指标进行一些可视化的展示,这是非常方便的。

image.png

这个动图是近期支持的 emr HBASE 的数据服务 API 的开发和测试,当 EMR HBASE 里面的数据设计存储好之后,可能需要提供一些 API 查询的能力,借助于数据服务这个模块,可以快速的选定需要查询的参数,以及通过参数能查询到的值,返回是什么,并且还可以在数据服务模块里面进行快速的测试,得到一个数据的返回,这就是快速分析服务。

13、EMR 产品核心能力

image.png

(1)EMR 最首要要去提的就是它云原生的一些特性,叫做灵活弹性。上节课也介绍过它的弹性伸缩目前已经支持了按集群负载和按时间两种模式,并且在每一个伸缩组里支持各种各样多种的实例规格,抢占式实例也是支持的。最新的还支持了成本优化模式,他是属于按量和抢占式搭配使用的方式。

(2)第二个核心点是稳定可靠的开源组件,社区的开源组件可能会存在比较多的问题,它的更新迭代也是比较快的,EMR 100%采用社区的组件,同时也跟随版本的升级 doctor fix 进行迭代,能有效和快速及时的修复社区漏洞,并且还做了一定的增强,在阿里云的环境里,远高于开源版本性能的优势。

(3)第三点是强大的运维和存储能力。基于云原生知道有无限量的对象存储,也就是数据湖,并且提供了数据湖管理的 DLF 产品,这就是存储层的能力。运维支持强大的 EMR 的管控台,可以方便地创建和扩容集群,无需像以前黑屏化的登录到各个节点上进行手动部署和服务的启动、配置等等。监控和告警体系不仅覆盖了 ECS 层面,还对所有的引擎服务也都支持了监控和告警,并且支持告警模板的配置。

14、EMR 服务支持情况

image.png

上图主要罗列了 DataWorks 模块对于 EMR 服务的支持情况,在后面使用到的时候可以进行参照和选情。EMR Shell 没有列出来,但是是支持的,可以通过 DataWorks 提供 shell 节点,shell 任务把它发布到 emr 集群上执行。数据质量和建模目前只支持到了 EMR Hive,血缘地图支持了 Hivespark 2和 spark 3 所产出的数据血缘,ranger 主要是开源生态 ranger 这个组件,基于它的 plug king,几乎是所有的 EMR 组件支持的除了 NPP 的 Clickhouse,用ranger 来覆盖数据安全、组件安全的使用这个功能。

15、EMR 全新平台体验

image.png

目前发布了 EMR 2.0全新的平台体验。首先,在弹性能力上有大幅度的提升,包括了集群创建和弹性伸缩,支持了异构实例和竞价实例,满足用户不同的个性化的一些弹性的需。稳定性上也有很大的提升,支持了节点迁移和故障节点主动的补偿。对于主机层面,是有一定的宕机率的,不可能是100%的零故障,会遇到一些故障迁移的情况的出现,并且有组件的状态巡检和事件的通知。在智能化上也有所提升,如集群的资源诊断、风险的预警和实时的检测。提效方向最新支持了配置的导出导入,以及集群的克隆的能力,这种的比较适用于像数据迁移,甚是版本的升级等等这样的场景。

16、数据湖构建 DLF——Data Lake Formation

image.png

DLF 处于四层架构里的第二层,就是湖管理优化,负责数据管理优化元数据等等。他是数据湖开发里不可或缺的一环,他提供了数据入湖的探索、统一元数据的服务、数据管理优化和权限安这方面,DLF 它的权限安全目前还处在白名单灰度开放,有需要使用的用户可以提交申请,不管是公单还是企业都可以提交申请来使用到 DLF 它的权限管控的能力。统一元数据很多时候认为数据库管理工具是很好的替代了 Have maintain store,在第一节课的内容也讲到了一般如果是生产集群会推荐用户去使用 DLF,而不是 Maintain store。作为 DLF 它是全托管免运维的形态,它的稳定性远远高于Maintain store 所依赖的MySQL。DLF 不仅是支持了 EMR,他其实还有对 Data breaks、Frank、Mass computer 以及 Hello Grace,不管是开源还是阿里云自研都有一定的这种适配能力。

17、数据湖存储——OSS/OSS-HDFS

image.png

第四个产品是存储层,是处在最底层的。目前他有两种方案,分别是 OSS 和 OSS-HDFS,两种方案都提供了11个九的可靠性和99.995%的 SLA 可用性,并且它的数据量支持 EB 级别,文件数目支持数十亿级别,相较于 HDFS 联邦 Federation 的易用性提升了许多,避免了它的复杂另外,产品具有多层次安全访问规格和访问控制的能力,这是 GBOX 本身的功能。前面在降本的优势中也讲到了,可以支持冷热的分层,高密度的存储和高压缩比,来帮助用户去进行成本的优化。

18、任务搬站迁移

搬站迁移有 EMR 的迁移助手的产品,图是迁移助手的界面

image.png

目前支持了主流的 Airflow、Oozie、Azkaban 等工作流引擎的迁移,近期还支持了 DolphinScheduler,这也是现在发展比较快速的开源调动引擎。

19、EMR 数据开发迁移到 DataWorks

不得不考虑到从以往的 EMR 数据开发工作流,想要迁移到 DataWorks的场景,因为 emr 本身的数据开发工作流已经不在维护了,可能会遇到这种迁移的场景。在项目管理里,选择 DataWorks 的工作空间,就可以以向导的方式一步步的进行迁移

image.png

支持到所有类型,从 EMR 到 DataWorks 数据节点、任务类型的 Mapping,最后点击确定,整个迁移的工作就会完成,具体可以参阅以下文档

 https://help.aliyun.com/document_detail/291426.html

 

五、DataWorks on EMR 产品优势

这一章主要讲  这个产品有哪些核心优势,主要分为五部分。

1、优势一:基于弹性伸缩的机器成本优化

五大优势中最重要是云原生的特性,它可以提供极致的弹性伸缩,一个是速度快,一个是它的方案比较的灵活多样。反复的提及到它支持两种的模式,一个是负载,一个是按时间。

image.png

右图可以看到像传统的离线计算类型的数仓数据湖,在零点后会有大批量的作业负载,八点到中午这段时间,其实是处于一个比较大规模的下降,很明显这张图里的使用形态会推荐按时间去进行,就相对固定,可以推荐按时间方式的这种弹性伸缩。举个例子,比如说有100台 ECS 算力的需求,而在这里可以快速的缩到50台,成本就节省了一半,第一点是弹性伸缩节约成本。

2、优势二:基于 OSS 的分层存储成本优化

image.png

前面讲弹性来节省计算成本,这里想用 OSS 来节约存储成本,OSS 本身也是体现云计算的核心优势的产品之一。OSS 有不同的类型的存储,根据 SLA 的不同,它会分为标准型、低频和深度归档类型。随着 SLA 能力的降低,它的单价也会随着降低,以 Hive 为例子,对于越老旧的数据兴趣度会越低,计算作业中涉及到这些数据的可能性也就越低,就是它的热度会慢慢的变低,所以这类数据可以将它移到低频甚至是归档的存储类型上,来节约存储成本。像0.12到0.15其实差了将近十倍的差距,这里结合 Hive 的分区 partition 做了一个冷热的分层,具体是单副本,是 PB 的数据为例,通过计算这张图里的方案相较于 HDFS 本地盘的方案是需要125万每个月,而如果是采用了这张胶片里的方案,会把整体的成本降到80万每个月,这里面其实节约了45万,占到了40%、30%+的节省的力度,是十分的可观的。

3、优势三:核心开源引擎性能优化

第三个优势对于开源引擎,在性能上是有一定优势的。据 spark 和 flink 的两个例子,EMR Spark SQL 在2.4.3这个版本上相较于开源的 Spark SQL 有三倍的提升,这通过了 TPC 官方性能的认证。云原生 K8S 场景,调度性能会比开源原生的 k8s 提升4倍以上。Flink 主要是基于 Nexmark 流计算标准性能测试,性能约为开源 Flink 的2~3倍,另外 ,EMR 的 Flink 也支持了企业版 GeminiStateBackend,作为状态存储它的性能比开源提升了3~5倍。在去年的信通院六月份的评测中 DataWorks on EMR 数据湖解决方案,通过了专项的能力测评,荣获云原生数据湖基础能力专项测评证书,测评满分,中国第一。

4、优势四:集群健康检查评分&优化建议

image.png

优势四是 EMR Doctor 新的产品模块所提供的,它能提供整个集群的健康检查的评分,并且会分模块进行评测和给出优化建议。分为整体分析,会分析集群的整体层面的问题,给出一个直观的分数。另外,还会分计算和存储,对不同的计算引擎,不同的存储类型,进行单独的分析,然后给出一个报告,

image.png

去帮助用户去优化自己的计算和存储的效率。

5、优势五:开箱即用的数据开发治理平台 DataWorks

image.png

最后,在 EMR 基础上使用 DataWorks 其实是可以把阿里巴巴大数据建设最佳实践方法论的12年的结晶,客户可以一日的拥有。像 DataWorks+MaxComputer 的这样的组合,12年前就开始在阿里集团内部开发和通常使用。主要有四方面的核心优势,第一个是功能健全,从这节课所讲述的内容也可以看出来,提供了一站式的全域的数据平台的能力,并且性能是十分卓越的,有几个数字每天是 PB 级别的数据同步,每天是千万级别的任务调度,性能卓越。第二点是简单易用,几乎所有的功能都提供了白屏的图形化界面的操作,在阿里内部,其实有很多的运营的小二都在使用,可能并不是有一些技术开发基础的,一小时就可以上手进行开发,简单易用。同时他是产品是云原生全托管开箱即用的特点,对于那些相比自研和开源工具,能有效的去降低平台研发和运维的成本,让用户更加专注于自己业务需求的开发。稳定性已经通过了数十年的双11的稳定性的考验,具备了金融级的数据安全的保障,这个是第五点的核心优势。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
SQL 存储 关系型数据库
HarmonyOS学习路之开发篇—数据管理(关系型数据库)
关系型数据库(Relational Database,RDB)是一种基于关系模型来管理数据的数据库。HarmonyOS关系型数据库基于SQLite组件提供了一套完整的对本地数据库进行管理的机制,对外提供了一系列的增、删、改、查等接口,也可以直接运行用户输入的SQL语句来满足复杂的场景需要。HarmonyOS提供的关系型数据库功能更加完善,查询效率更加高效。
|
9月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
649 0
|
SQL 监控 Oracle
关系型数据库Oracle并行执行
【7月更文挑战第12天】
525 14
|
SQL 分布式计算 大数据
一张图,详解大数据技术架构
一张图,详解大数据技术架构
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能质量检测与控制
使用Python实现深度学习模型:智能质量检测与控制 【10月更文挑战第8天】
1024 62
使用Python实现深度学习模型:智能质量检测与控制
|
前端开发 Java 测试技术
语音app系统软件源码开发搭建新手启蒙篇
在移动互联网时代,语音App已成为生活和工作的重要工具。本文为新手开发者提供语音App系统软件源码开发的启蒙指南,涵盖需求分析、技术选型、界面设计、编码实现、测试部署等关键环节。通过明确需求、选择合适的技术框架、优化用户体验、严格测试及持续维护更新,帮助开发者掌握开发流程,快速搭建功能完善的语音App。
|
缓存 NoSQL Java
避免缓存失效的三大杀手:缓存击穿、穿透与雪崩的解决方案
避免缓存失效的三大杀手:缓存击穿、穿透与雪崩的解决方案
1872 0
|
Web App开发 人工智能 安全
指南:Google Gemini 2.0 Pro国内版 (Gemini 2.0国内使用指南)
据称,谷歌 AI 推出的 Gemini Pro 国内版,是一款性能卓越的大型语言模型,其能力和表现均超越了广受欢迎的 ChatGPT。作为 Fostmar 的重大升级,它将为用户带来前所未有的 AI 交互体验
3133 0
python 将绘制的图片保存为矢量图格式(svg)
python 将绘制的图片保存为矢量图格式(svg)
python 将绘制的图片保存为矢量图格式(svg)

热门文章

最新文章