开发者社区> 问答> 正文

EMR 开源软件栈是什么样的?

EMR 开源软件栈是什么样的?

展开
收起
甜甜的嘻嘻嘻 2022-08-03 15:58:40 328 0
1 条回答
写回答
取消 提交回答
  • 下图是 EMR 目前支持的开源软件栈。最底部是 EMR 的 Docker 和 ECS。通过 ECS 是目前在公有云上的主要形态,专有云可以通过 Docker 的方式,在 ECS之上部署一个 EMR Agent,主要负责集群管理和集群运行数据的采集,检测集群端前是否出现问题。数据导入时 EMR 提供了 Sqoop,使用开源的 DataX 组件、Flume 组件或 SLS 将数据导入到 EMR 上。数据存储这一块 EMR 支持 HDFS 和OSS。在 OSS 之上又开发了 jindoFS,jindoFS 可以用 OSS 作为数据湖的概念,通过 jindoFS catch 的方式做数据加速,提升 OSS 读取数据的效率。EMR 最新版本支持 Kudu 和 Delta Lake,帮助用户有效的构建实时数仓。用户利用 Kudu 或Delta Lake+ 流式计算,如 Spark 或 Flink 实现实时用户画像、实时推荐等功能。资源调度方面,EMR 目前主要使用 YARN。计算引擎方面,EMR 提供了较多的计算引擎,如 Spark、Flink、TensorFlow、Storm、Impala 和 Presto 等。同时在应用层面提供了开源的 Jupyter、NoteBook、Zepplin 以及 Hue。EMR 是一个半托管的形态,用户自建的系统也可以无缝迁移。阿里自研的EMR-Flow 可实现工作流的调度。

    image.png

    以上内容摘自《大数据工程师必读手册》电子书,点击https://developer.aliyun.com/topic/download?id=29可下载完整版

    2022-08-03 16:04:15
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。
问答排行榜
最热
最新

相关电子书

更多
如何使用Tair增强数据结构构建丰富在线实时场景 立即下载
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
阿里云EMR 2.0:重新定义新一代开源大数据平台 立即下载