【赵渝强老师】阿里云大数据生态圈体系

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。

b041.png

基于开源的大数据技术,阿里云开发了自己的大数据计算服务,即:MaxCompute大数据计算服务。MaxCompute原名为ODPS(Open Data Processing Service),它是阿里云提供的数据仓库解决方案,并提供大数据量(百TB、PB、EB)的结构化数据的存储和计算服务。由于MaxCompute适用于离线计算的批处理场景,因此阿里云进一步开发了实时计算Flink版用于支持大数据的实时处理与计算。下图展示了阿里云大数据的生态圈体系。

image.png


视频讲解如下:


一、阿里云大数据基础组件


在了解到了阿里云大数据生态圈系统后,这里将详细介绍阿里云提供的大数据基础组件及其功能特性。


1.1  数据存储服务


阿里云大数据的数据存储服务主要包括对象存储服务Object Storage Service、表格存储Table Storage、关系型数据库RDS和分布式关系型数据库DRDS。


  • 对象存储服务Object Storage Service


阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。


OSS具有与平台无关的RESTful API接口,用户可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。用户可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。数据存储到阿里云OSS以后,可以选择标准存储(Standard)作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也可以选择成本更低、存储期限更长的低频访问存储(Infrequent Access)、归档存储(Archive)、冷归档存储(Cold Archive)作为不经常访问数据的存储方式。下图展示了OSS的管理控制台。

image.png


  • 表格存储Table Storage


阿里云表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。阿里云表格存储的优势,包括多模型数据存储、多元化数据索引、多计算生态接入、访问安全性等。下图展示了阿里云表格存储的管理控制台。

image.png


  • 关系型数据库RDS


阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、SQLServer、PostgreSQL和MariaDBTX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,有效帮助用户解决数据库运维的相关问题。下图展示了阿里云RDS的管理控制台。

image.png



  • 分布式关系型数据库DRDS


分布式关系型数据库服务(DistributedRelationalDatabaseService,简称DRDS)是阿里巴巴致力于解决单机数据库服务瓶颈问题而自主研发推出的分布式数据库产品,解决了一些传统单库RDS数据库的痛点。


DRDS高度兼容MySQL协议和语法,支持自动化水平拆分、在线平滑扩缩容、弹性扩展、透明读写分离,具备数据库全生命周期运维管控能力。

注意:DRDS必须依赖RDS。


1.2  数据计算服务


阿里云大数据的数据存储服务主要包括MaxCompute离线计算服务、分析型数据库Analytic DB和实时计算Flink版。


  • MaxCompute离线计算服务


云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为用户提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为用户提供完善的数据导入方案以及多种经典的分布式计算模型,用户可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。下图展示了阿里云MaxCompute的管理控制台。

image.png


注意:MaxCompute用于离线计算的批处理场景,不能用于实时计算的流处理场景。


  • 分析型数据库Analytic DB


分析型数据库(Analytic DB,简称ADB)是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。具备海量数据的计算和响应计算能力,能让用户在瞬息之间进行灵活的数据探索,快速的发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。ADB支持全面的值索引和块索引技术,并全面兼容MySQL协议和SQL2003。下图展示了阿里云ADB MySQL版的管理控制台。

image.png


  • 实时计算Flink版


阿里云实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。它具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。内核引擎100%兼容Apache Flink,并有2倍性能的提升。阿里云实时计算Flink版拥有Flink CDC、动态CEP等企业级增值功能,内置丰富上下游连接器,助力企业构建高效、稳定和强大的实时数据应用。下图展示了阿里云实时计算Flink版的管理控制台。

image.png


二、基于阿里云大数据基础组件的数加平台


数加平台基于阿里十几年在大数据上的经验积累,基于对内的平台上做了一个对外的实例即数加。阿里云的数加平台包括多租户、账号、权限、安全、元数据、计量计费等模块,也包括算法平台PAI。它将计算引擎、数据开发工具、数据采集和传输工具、数据分析工具、机器学习平台无缝集成,提供端到端的一站式用户体验。让基于Hadoop自建数据平台成为往事,让客户专注于业务系统开发。


2.1  大数据开发治理平台DataWorks


DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。下图展示了阿里云DataWorks的管理控制台页面。

image.png


DataWorks具有强大的基础能力,可以为用户大幅提升工作效率,保障数据准时产出,助力数据治理,让用户零成本构建数据服务。它具有以下的特性:


  • 学习成本低


非技术人员1~2小时即可掌握完整的数据开发、治理流程,告别传统命令行,节省巨大的学习成本。让用户可以在同一DAG图中,构建异构计算引擎形成混编任务流,无需分别维护各技术栈,助用户高效组合混编任务流。


  • 人效提升快


一键开通即可完成开箱即用的数仓技术架构搭建,告别繁重的自研、部署、维护工作,为企业免去数十人运维开发团队。


  • 产品功能全


功能涵盖数据传输、开发、生产、治理、安全全领域,每个领域深度覆盖大数据全生命周期,轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。


2.2  数据可视化分析平台Quick BI


Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,用户可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在业务流程中,并且通过邮件、钉钉、企业微信等分享给同事和合作伙伴。通过Quick BI可以让企业的数据资产快速的流动起来,通过BI和AI结合挖掘数据背后的价值,加深并加速在企业内部各种场景的数据消费。


Quick BI从阿里巴巴内部的BI工具发展而来。阿里巴巴内部在2014年前还在使用传统的BI工具来做报表和数据获取,但传统BI工具无法满足阿里内部丰富的场景、快速变化的业务和海量数据查询的诉求,从2014年开始阿里内部开始出现各种自建的可视化工具,例如服务于有Excel经验人员的在线电子表格,支持双11和618大促活动的可视化大屏,快速构建报表和仪表板的工具等。下图展示了Quick BI的模板页面。

image.png


2.3  机器学习PAI


机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。下图展示了机器学习PAI的工作空间页面。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 搜索推荐
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。
7722 1
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
|
19天前
|
SQL 分布式计算 大数据
【赵渝强老师】大数据生态圈中的组件
本文介绍了大数据体系架构中的主要组件,包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka;计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream;分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。
|
SQL 人工智能 分布式计算
“后红海”时代,大数据体系到底是什么?-上篇
主要解读当下的大数据体系的四个热点。
“后红海”时代,大数据体系到底是什么?-上篇
|
人工智能 Cloud Native 大数据
“后红海”时代, 阿里资深技术专家揭秘当下大数据体系
任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从 “戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面 20 年中,大数据技术也经 历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠 的技术。
17878 0
“后红海”时代, 阿里资深技术专家揭秘当下大数据体系
|
机器学习/深度学习 分布式计算 负载均衡
大数据SaaS应用落地经验分享
在过去几年中,我们自己开发的大数据SaaS应用大数据实验室采用混合云体系结构在全国各地进行了几十次部署。在实际使用过程中,遇上了非常多的问题。本文主要分享在实际软件开发和维护过程中遇上的各种问题和解决方案分享。
845 0
大数据SaaS应用落地经验分享
|
存储 消息中间件 分布式计算
小红书推荐大数据在阿里云上的实践
本篇内容主要分三个部分,在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景,以及和阿里云MC-Hologres的合作。
10293 1
小红书推荐大数据在阿里云上的实践
|
机器学习/深度学习 人工智能 分布式计算
“后红海”时代,大数据体系到底是什么?-下篇
大数据体系未来演进的4大技术趋势和3个待探索疑问。
|
大数据 分布式计算 流计算
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
|
数据采集 分布式计算 监控
品《阿里巴巴大数据实践-大数据之路》一书(上)
7月有人推荐阿里巴巴刚出的这本书《阿里巴巴大数据实践-大数据之路》,到亚马逊一看才是预售状态,拍下直到8月才拿到。 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个小时,就把它读完了。
18317 1
|
大数据 人工智能 算法
大数据人才培养经验分享
总结了一下过去5年在各个高校进行大数据人才培养的经验
1640 0