正文:
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍
一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构,主要面向数据分析师,数据科学家以及大数据工程师来使用。主要应用的业务有Machine,非结构化数据分析,Ad-hoc/BI,Reporting和Learning等等。在整体架构中,DataWorks作为数据统一开发管理的平台,主要负责数据安全,开发IDE,任务调度和数据资产管理等综合工作,确保平台稳定运行。
如上图所示,在整体架构中,我们首先将数据湖集群和MaxCompute数仓集群的网络打通,然后将存储层的数据打通,确保智能Cache,冷热分层,存储优化和性能加速。在计算层,我么实现了DB级元数据的透视,避免数据孤岛。
DataWorks统一了各种数据资产,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产,而且还支持从数据源里抽取元素与信息。
在阿里内部,我们实现了一定程度的数据民主化。现如今,阿里集团内部所有的表,员工都能够看到表名称和的元数据信息,以及信息的安全等级。DataWorks作为中台:可以从列表中支持的数据源采集数据,纳入平台管控。
目前,统一的表级、字段级别数据血缘就现有的产品能力,只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。
在单一引擎内部,可以挂载多个hadoop集群,实现统一引擎的对接与管理。
DataWorks作为统一的数据开发平台,能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口,发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业,MaxCompute作业以及Hive作业等。
二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户,主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用,使用集群管控较严,无法短时间支撑大workload的创新业务。
基于以上需求,我们通过湖仓一体,将新业务平台与原有数据平台打通,即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型发布,大规模计算等能力,提升了团队的工作效率。
数禾公司通过引入MaxCompute作为计算引擎的数据中台,不但让数据湖计算自由流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率,而且降低了运维成本,起到了降本增效的作用。
上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储,我们通过DLF构建了元数据管理,数据血缘管理,数据权限管理。通过JindoFS+MC的方式,实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR,成功实现了智能数据构建与数据中台管理。
在未来,湖仓统一开发管理平台,能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据,也能支持非机构化数据。整个平台不但能同步联邦数据源,而且能统一元数据服务和元数据仓库。
阿里云大数据是为业务敏捷而生的简单、易用、全托管的云原生大数据服务。激活数据生产力,分析产生业务价值。详情访问:https://www.aliyun.com/product/bigdata/apsarabigdata