数加平台——阿里大数据OS实践

简介: 在云栖计算之旅第5期——大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义、起源、愿景、价值、架构、规划六个方面分享了《数加平台——阿里大数据OS实践》。其中,他主要介绍了数加平台的演进过程和阿里大数据OS的架构。

在云栖计算之旅第5期——大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义、起源、愿景、价值、架构、规划六个方面分享了《数加平台——阿里大数据OS实践》。其中,他主要介绍了数加平台的演进过程和阿里大数据OS的架构。

 

以下内容根据视频整理而成。

 

视频回顾:点此进入

pdf下载:点此进入

 

数加是什么

0bfcc1f9a00151b848665e7964fa471350597774

在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute、ADS、流计算、大数据开发套件;人工智能部分,机器学习(基础平台是PAI)、语音识别、ET等;数据分析展现部分,数据可视化(大屏、BI报表)、I+关系网络分析(安全领域用的比较多);数据应用部分,推荐引擎(提供面向终端用户的服务,以大数据中间件存在)等。天池比赛也是基于数加平台,数加数据市场相当于大数据的App Store。

数加是什么?数加=数加平台+数加市场+数加应用。平台相当于OS部分,其上有App Store(即市场),市场上有大量的应用(包括官方应用和第三方应用)。数加平台基于阿里十几年在大数据上的经验积累,在对内的平台BASE上做了一个对外的实例即数加。数加平台除了BASE,还包括多租户、账号、权限、安全、meta、计量计费、Open API、数据市场、数加网站等模块,也包括算法平台PAI。

数加平台=大数据OS=大数据的IOS。大数据OS希望提供高度集成的大数据平台,将计算引擎、数据开发工具、数据采集和传输工具、数据分析工具、机器学习平台无缝集成,提供端到端的一站式用户体验;提供云数仓服务(对标redshift),革传统数据仓库的命,让基于Hadoop自建数据平台成为往事,让客户专注于业务系统开发,把用户数据还给用户,提供安全隔离的租户空间;是开放的大数据OS,兼容开源数据生态,支持各种第三方数据应用在上面安装使用;支持数据交换和分享,让用户安全,可计量的使用他方数据。

cdf925b3e7ec71bd1d324facd205d780750e97d4

大数据生态中,数加平台最底层是计算平台,还包括一系列支撑平台、数据开发和算法开发,对外提供大数据的基本职能是SQL开发(是Web界面,方便易用)、MapReduce开发、算法开发(PAI)。Open API层可与外部应用打通。数加数据市场中,包括数据服务(包括API服务)、数据应用(基于整个数据开发平台,以及数据API等各种东西)。

da61fcc8fe51cda368b6dbad72718afc4b8e6443

上图中,下面是数加平台,核心的东西是数据开发、数据分析、应用平台,上面是各个领域的应用。

数加起源

阿里早年烦恼

很早以前,阿里很多的BO用的都是IOE,其存储昂贵、可扩展性差。阿里各个分支有不同的尝试,B2B、支付宝尝试的是Greenplum,淘宝选择了Hadoop。此时产生了数据孤岛问题,各业务部门的数据散落在多个集群,彼此之间数据不通,数据共享太难,缺少权限安全的管理。所以需要做数据仓库来把数据集中在统一的一个平台来管理。数据共享的问题解决之后,由于数据不集中,也没有较好的数据仓库规划,导致数据被拖来拖去、重复存储和计算,出现了重复建设的问题。

阿里大数据背后的挑战

  • EB级的数据算不算得动?
  • 百万张表如何管理?
  • 数据质量之殇?
  • 大集中的数据如何确保安全?

统一的自主可控的大数据平台

在Hadoop的基础上,做了统一的自主可控的大数据平台,其特点是:统一平台,数据大集中,统一的存储,统一的计算平台,统一的数据开发平台,统一的元数据又会涉及到数据治理;资源共享,弹性分配,基于ODPS多集群技术,由数以万计的服务器提供超级计算能力,按需弹性分配给各数据开发团队;数据隔离,权限管理,基于ODPS多租户机制,各部门可独立管理自身的数据,独立做数据授权。

阿里大数据体系架构

fc67209279457d1e806900307d1f37d84d7216ec

上图展示了阿里内部数据平台的进化。首先是大数据平台的统一,数据仓库的统一极其重要,然后是产品和服务层的统一。最上方的前台业务也契合了阿里的公司战略:基础设施要足够大,前台能够利用其快速突破业务。右边是支撑数据平台的一些工具软件。比如成本管理,当一个公司足够大的时候,成本控制非常重要。怎么做到数据共享、算法共享、知识共享,一直是阿里的愿景。

数加对阿里集团业务的支撑

63f5dc93236240396e215dd2a4a0de004b6a132e

上图是数加对阿里集团业务的支撑,下面是数加平台,支撑着蚂蚁金服、电子商务、物流及其他领域。存、通、用是阿里在数据上面多年来总结的心法。存是指数据大集中,MaxCompute(ODPS)统一存储和计算;通是指统一规范,打通各个业务单位,进而推动数据开放和交换,促发展,养生态;用是指数据化运营,进而运营数据。

数加对阿里集团业务的支撑

6f7ed47b043d652e388a6892c202b300b3cef825

阿里集团绝大部分数据都在数加平台上。

阿里大数据实践之路

6d93936b782e0258826b6e3738f8dd194831f114

首先需要统一的数据上云,然后数据资产化是指解决成本问题,只有能产生业务价值才能反向拉动整个数据相关技术及团队的成长。数据生态是将前三步积累的东西构建一个平台。

数加平台愿景

首先是,希望数加平台成为数据分享第一平台,基于大数据OS构建大数据生态。普惠大数据也是其中一个愿景,希望大家通过这个平台可以更加关注自己的业务而不是研究如何搭建平台、Hadoop。其实,做数据平台最难的并不是搭Hadoop、Spark,而是如何做元数管理、调度、数据治理、数据监控。一个公司需要投入很大的人力才能做到基本可用。普惠大户数据的提出就是希望基于这个平台,人人可用,便宜,好用。

数加平台的价值

面向开发者的大数据操作系统

95e6a0e3852c3a48afe0b546bbf99d5f6e791af3

业务数据经过4个过程:采集存储环节,工具可以使用DataX;计算和加工环节,包括数据预处理和加工、数据模型、算法;数据分析环节,一般是使用BI工具,也包括即时查询、多维查询工具;深度挖掘环节。最后进行数据服务和数据展现。应用加速就是经常提到的大数据中间件,比如大屏的中间件DataV。右边是一些应用的行业。

大数据OS的价值

93f27acbf328dc6e1032d4dc33be647cd0e8f960

OS层最里面是计算引擎,数据采集、数据开发、数据分析、机器学习是最重要的数据学习领域。上部分列出了有些比较常见的中间件。正常来说,从零开始开发一个个性化推荐需要900人天的时间,但是使用上述的中间件可以将时间缩短到30人天。从零开始开发一个活动直播大屏需要一个月的时间,使用中间件只需要3天~1个小时。

阿里大数据OS

715cfe9b37d1840b5c5089e1acc9017b8b163cdd

上图展示了阿里大数据OS整个体系。下面是n个独立的集群(可能是跨国的),用飞天OS将其变得相当于一台计算机,使用ODPS则看起来像一个计算引擎,One Data做数据仓库进行统一的管理和数据治理。周边是数加平台的基础设施和支撑软件,比如元数据、调度和任务监控。最上方基于One Service公共数据服务对外提供服务。

数加平台系统架构

9f453ab189b0f56ac64808a4ea5e7815e28d04b2

更详细来看,数据层包含了各种数据,用户数据中心即云数据仓库,每个用户可以在其上建立自己的数据中心。各租户之间可以做分享,并且有平台共享的数据。数据平台层包括计算引擎和支撑平台,对外有做SQL开发和MapReduce开发的接口,OpenAPI可以将做好的数据分享或者授权给别人使用。上面是数据应用,包括一方应用(日志分析、QuickBI、AI应用)和三方应用。

数加典型用户

70aa775feafaa3105f2ab07f3a21b6237a594e51

阿里做公有云的数据平台服务,目标是服务中小企业。

数加平台规划

02409635af6a97f09ff2d21331b0f61dd9e72c05

数加平台的规划包括:建子云平台,建立行业云;支持混合云架构,统一元数据系统,支持实时、数据抓取,兼容开源数据生态、Hadoop一键数据和任务迁移;繁荣数据市场生态;初步探索数据交换模式,平台主导建立数加共享数据库(企业信息数据库、个人信息数据库、社会共享信息数据库)。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
人工智能 Anolis
2025 北京文化论坛阿里巴巴沙龙落幕 分享龙蜥在操作系统领域的创新实践
分享龙蜥社区以及其理事长单位阿里云在AI 开源领域的战略布局。
|
2月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
4月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
4月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
5月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
5月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
194 4
|
5月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
331 3
|
4月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
5月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
601 0

推荐镜像

更多