业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台 “湖仓一体”

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2020年9月18日,阿里云在云栖大会正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。

9月18日,2020云栖大会上,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。
image.png
大数据技术从本世纪初发展至今演进出了数据仓库和数据湖两种趋势,前者通常指云厂商提供的基于大数据技术的一体化服务,后者通常是由一系列云产品或开源组件共同构成的大数据解决方案。

当企业处在初创阶段,灵活性就非常重要,数据湖的架构更适用。当企业逐渐成熟,成长性成为最关键因素,数据仓库的架构就再适合不过了。那么,数据仓库和数据湖是否只能是一道单选题?能否有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性?

阿里巴巴集团副总裁、阿里云计算平台负责人贾扬清表示,MaxCompute湖仓一体方案打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,从而构建数据湖和数据仓库融合的湖仓一体的全新计算平台。MaxCompute湖仓一体方案不仅可广泛用于支持超大规模的机器学习和深度学习,还能帮助企业高效提升自身大数据能力,实现敏捷运营,降本增效。

据悉,MaxCompute在原有的数据仓库架构上,融合了存储计算一体化数据仓库和云上存储计算分离的数据湖,最终实现了湖仓一体化的整体架构。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以Join数据仓库和数据湖中的两张表,同时整体架构还具备统一的数据安全、管理和治理等中台能力。

在技术融合过程中,MaxCompute不仅实现了快速接入、统一数据/元数据管理、统一开发体验、自动数仓四个关键技术点,更持续提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特尔至强可扩展处理器在100TB规模保持性能不变的情况下,成本较去年下降了40%;30TB规模下,性能提升50%以上,成本下降了30%以上。

微博是“湖仓一体”的尝鲜者。此前微博拥有Hadoop数据湖和阿里云大数据及AI两套异构的大数据平台,且两套平台在集群层面完全割裂,数据和计算无法自由流动。为了解决这些难题,微博基于阿里云构建了湖仓一体化的AI计算中台,摆脱了繁重的数据搬迁,使得微博的数据工程师和算法工程师轻松无缝的借助阿里巴巴成熟的超大规模算力和算法赋能业务提效。同时,将MaxCompute云数据仓库(结构化数据)与数据湖(非结构化数据)构成闭环,极大提升了AI类作业效率,产生巨大的业务价值。

阿里云自研云数据仓库MaxCompute历经近10年技术沉淀,不仅稳定支撑阿里巴巴集团的数据存储和数据计算业务,更是云上客户大数据平台的重要组成部分。此次湖仓一体发布,为企业提供了一种更灵活更高效更经济的数据平台解决方案,既适用于全新构建大数据平台的企业,也适合已有大数据平台的企业进行架构升级,切实以技术加速了企业的数字化重构。

了解更多 “湖仓一体” 方案与技术详情 >>
MaxCompute湖仓一体方案最佳实践 >>
MaxCompute 产品官网 >>


更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
7天前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
80 35
|
2天前
|
人工智能 关系型数据库 MySQL
AnalyticDB MySQL版:云原生离在线一体化数据仓库支持实时业务决策
AnalyticDB MySQL版是阿里云推出的云原生离在线一体化数据仓库,支持实时业务决策。产品定位为兼具数据库应用性和大数据处理能力的数仓,适用于大规模数据分析场景。核心技术包括混合负载、异构加速、智能弹性与硬件优化及AI集成,支持流批一体架构和物化视图等功能,帮助用户实现高效、低成本的数据处理与分析。通过存算分离和智能调度,AnalyticDB MySQL可在复杂查询和突发流量下提供卓越性能,并结合AI技术提升数据价值挖掘能力。
23 16
|
5天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
37 7
|
24天前
|
存储 人工智能 数据管理
|
19天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
17天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
23天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
47 4
|
1月前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
1月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
81 2

相关产品

  • 云原生大数据计算服务 MaxCompute