2.阿里云各大数据引擎能力介绍|学习笔记

简介: 快速学习2.阿里云各大数据引擎能力介绍

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.阿里云各大数据引擎能力介绍】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1223


2.阿里云各大数据引擎能力介绍

内容介绍

一、阿里云大数据&AI产品体系

二、MaxCompute 大数据计算服务

三、E-MapReduce 开源大数据计算平台

四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

五、Elasticsearch 全链路云上ELK

六、PAl:组合的Al产品体系

一、阿里云大数据&AI产品体系

image.png

datawords 下面是基于底层引擎的一站式的开发和治理的平台,那么对于用户,它可以基于自己不同的需求,选择不同的大数据计算引擎,就像大数据Al产品体系上的架构一样,能够实现阿里云免运维的能力。计算平台有两个,一个是MaxCompute,能够提供 severless 的大数据计算以及企业级的一些能力,另外一个是 E-MapReduce 基于开源体系搭建的大数据计算引擎还有一些比如实时计算Flink,交互式分析 Hologres图计算引擎,搜索推荐的一些各种各样相关的不同场景情况下使用的引擎,通过 DataWorks 进行一站式的开发治理后,可以对接各种各样的数据应用,不管是BI系统还是datav的大屏,右侧有一些AI相关的平台,也是可以通过DataWorks做AI相关数据处理,这就是阿里云的大数据和Al的产品体系

二、MaxCompute 大数据计算服务

离线、实时、分析、服务一体化

1、架构清晰

离线实时一体化数仓最简单大数据分析架构

2、性能强大

飞天10年累积,国内规模最大,单系统超10万台连续3年 TPCx-BigBench 性能世界冠军PB级数据亚秒级分析

3、使用门槛低

Serverless 开箱即用企业级安全能力存储加密、异地容灾备份、自动恢复、多租户权限管控

和 DataWorks 一起在阿里巴巴集团内支撑11年数据中台建设的 maxcompute 大数据计算服务,可以跟的 hologres 搭配在一起,实现离线实时分析服务体化的,也是现在经常说的流批一体的数据仓库的架构,首先它的架构是非常清晰的,不需要基于各种需求搭建各种各样的开源组件。第二它的性能也是非常的强大,不管是单系统的超过10万台机器的能力,以及参加各个世界榜单的一个打榜,以及通过 hologres 实现pb级数据样表分析的这种能力。整体的引擎能力是 maxcompute和DataWorks 结合非常好的一个场景。


三、E-MapReduce 开源大数据计算平台

1、存储集中化

支持超过EB级别OSS数据湖数据湖,存储成本低至0.033元/ GB/月,比高效云盘下降10倍

2、元数据共享化

支持超过10万DB,1亿Table, 10亿Partition,每天元数据服务请求量超过30亿

3、计算多样化/容器化

支持Hive /Spark /Presto /Flink/MaxCompute/Hologes等10+计算引擎,半分钟内启动1000个计算引擎Pod

MaxCompute 阿里巴巴集团自研的引擎E-MapReduce 是基于各类的开源的组件,不管是spark,Flink还是hdfs或者各类的开源组件构建的大数据平台,因为部分的客户他可能本身就已经选择了开源的技术架构和体系,通过开源的E-MapReduce 也能够对接 DataWorks 做站式的开发和治理。emr的引擎它首先存储集中

化,它的很多数据可以存储在阿里云的oss上,所以它的存储成本相对而言非常低廉。另外它的原数据共享化以及计算支持的各类引擎的多样化相对而言也是更加丰富,这个是 E-MapReduce 引擎的特性。


四、实时计算 Flink 中国唯一进入 Forrester 象限的流计算产品

1全国最受欢迎的流计算引擎

阿里巴巴出品,Apache Flink 创始团队出品,提供丰富的企业级增值功能

2、全球领先的技术

拥有全球最大的Flink集群和业务每秒处理消息事件25.5亿条

不管是国内还是国外Apache Flink 社区的热度相对而言非常高,整个阿里巴巴的流计算团队也是 Apache Flink 的创始团队,在云上也有商业化的产品和版本,不管是每年双11的各种大屏,还是实时的数据仓库,都有Flink和各种产品的组合搭配,能够实现。


五、Elasticsearch 全链路云上ELK

1Elasticsearch 官方合作

X-Pack商业插件Beats、Logstash. Kibana 的ELK全托管

2、优化增强,AI加持

日志分析增强,冷热数据节点,NLP

分词插件等自研功能

阿里云的 Elasticsearch 和官方的 Elastic 合作,云上的版本会提供商业化的插件原厂的商业版本是付费的,在阿里云有云上的 Elasticsearch,可以把这些商业化的插件进行免费开放同时也会结合Al的能力,对于日志分析能力具有增强,也有NLP分词插件源的功提供给大家,方便大家更好的使用 Elasticsearch 引擎


六、PAl:灵活组合的Al产品体系

PAI是做机器学习相关的一个AI的平台,PAI的很多用于机器学习,或者训练推理的数据同样也可以通过 DataWorks 做处理,处理后给到PAI学习使用,PAI里面各种各样的一站式AI开发平台的功能,也可以基于企业自己的需求做灵活的组合和使用。

image.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
283 0
|
5月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
645 0
|
2月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
238 1
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
352 2
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
340 1
|
5月前
|
人工智能 分布式计算 DataWorks
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
阿里云ODPS技术栈通过MaxCompute、Object Table与MaxFrame等核心组件,实现了多模态数据的高效处理与智能分析。该架构支持结构化与非结构化数据的统一管理,并深度融合AI能力,显著降低了分布式计算门槛,推动企业数字化转型。未来,其在智慧城市、数字医疗、智能制造等领域具有广泛应用前景。
520 6
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
|
5月前
|
分布式计算 关系型数据库 MySQL
【赵渝强老师】大数据交换引擎Sqoop
Sqoop是一款开源工具,用于在Hadoop与传统数据库如Oracle、MySQL之间传输数据。它基于MapReduce实现,支持数据导入导出、生成Java类及Hive表结构等操作,适用于大数据处理场景。
158 3
【赵渝强老师】大数据交换引擎Sqoop

热门文章

最新文章