如何快速搭建云原生企业级数据湖架构及实践分享

简介: 众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。


王震,阿里云计算平台事业部 开源大数据平台 技术专家

本文根据王震在 2021开源大数据技术线上Meetup#0821 分享整理


直播回放链接:https://developer.aliyun.com/live/247227


内容框架:

  • 背景介绍
  • 如何使用 DLF数据湖
  • 实操演示


一、背景介绍

什么是数据湖  

数据湖:以一定规则形式存储各种类型的数据

  • 结构化数据( Orc 、Parquet )
  • 半结构化数据 ( Json 、Xml )
  • 非结构化数据(图像 、视频)


为什么需要数据湖    

1、数据规模进一步扩大

  • 大数据存储需要治理
  • 数据治理需要厘清数据依赖关系(血缘)
  • 用户需要明确大数据整体成本(TCO)


2、数据来源多样化

  • 事务数据(MySQL, SqlServer)
  • 搜索数据 (SOLR)
  • 批处理数据 (SPARK, HIVE)


3、数据格式多样化

  • Parquet / Orc / Avro / Csv / Json / Text


4、数据分析场景多样化

  • 基于语义的搜索分析
  • 随机/近实时 OLAP 分析


5、数据分析用户多元化

  • 分析用户角色多元化 (开发/测试/数据/BI)
  • 用户数据访问合规管控诉求


数据湖能做什么

1、针对数据规模进一步扩大

  • 数据湖提供 【数据血缘】服务
  • 数据湖提供 【数据治理】服务
  • 数据湖帮助用户明确大数据的整体成本


2、针对数据来源多样化

  • DLF 提供【统一元数据】服务

解决多引擎元数据一致性问题

解决元数据使用和维护成本问题


3、针对数据格式多样化

  • DLF 提供【数据入湖/元数据爬取】服务

支持 MYSQL/KAFKA 入湖,元数据爬取

支持离线/实时入湖, 满足不同业务时效要求

支持 DELTA/HUDI 等数据湖格式


4、针对数据分析场景多样化

  • DLF 提供【统一元数据服务】

可以切换不同引擎 MC/EMR/DDI

数据探索在不同引擎之间一致


5、针对数据分析用户多元化

  • 数据湖提供【访问权限控制】服务

多引擎下的数据访问集中授权/避免反复授权

解决多用户数据访问合规问题

  • 数据湖提供【访问日志审计】服务

解决用用户数据访问合规审查问题

image.png

二、如何使用 DLF 数据湖

数据入湖

1、大量异构外部数据源【数据入湖】服务

  • 全量导入 : 批量入湖一次导入
  • 增量导入 : 实时入湖流失增量导入

image.png

2、大量现存Hadoop生态数据 【元数据爬取】服务

  • 将数据导入数据湖OSS进行存储
  • 元数据爬取 提取原有数据schema

image.png

数据查询

数据湖【统一元数据】服务支持多种引擎查询

  • 使用数据探索(SPARK)对入湖数据进行探查
  • 使用MAXCOMPUTE对数据进行深度复杂加工
  • 使用Databricks DDI专用集群对数据进行探索
  • 更多引擎支持中…

image.png

数据治理

一、使用【权限访问控制】服务控制数据访问

  • 进行 库/表/列 级别的访问权限设置
  • 统一的元数据,只需要设置一次


二、使用【数据治理】服务明确大数据总成本

  • 日/周/月 级别的存储使用情况 – 及时释放过时的大存储文件
  • 日/周/月 级别的计算使用情况 – 及时识别数据上的异常计算


三、实操演示

数据湖构建 DLF 体验链接:https://dlf.console.aliyun.com/



点击回放链接,直接观看直播视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247227





不错过每次直播信息、探讨更多数据湖相关技术问题,欢迎扫码加入钉钉交流群!

lADPD26eQD1BXgfNA97NAu4_750_990.jpg

相关文章
|
3月前
|
数据采集 运维 监控
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
|
6月前
|
消息中间件 运维 监控
企业级短信验证码服务架构设计与最佳实践
随着移动互联网的发展,短信验证码成为用户身份验证的重要手段。本文从企业级应用角度出发,探讨如何构建高可用、高并发和安全可靠的短信验证码服务。通过多通道冗余、故障自动切换和服务降级保障高可用性;利用异步处理与消息队列应对高并发;借助多层防刷、内容审核和数据加密提升安全性。同时,提供了详细的架构设计、核心模块代码示例以及监控运维方案,帮助读者理解并实现一个完整的短信验证码系统。
336 2
|
2月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
6月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
2月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
374 2
|
2月前
|
人工智能 Kubernetes Cloud Native
Higress(云原生AI网关) 架构学习指南
Higress 架构学习指南 🚀写在前面: 嘿,欢迎你来到 Higress 的学习之旅!
605 0
|
3月前
|
存储 消息中间件 安全
企业级实时消息推送系统的架构设计,一文即懂!
如果你是技术负责人,该如何搭建一套能解决这些问题的企业级统一消息推送平台?今天我们就从核心挑战出发,拆解一套可落地的统一推送服务架构方案。
473 0
|
5月前
|
人工智能 监控 数据可视化
企业级LLMOps落地指南:蜂巢架构×可视化编排实战
本文将基础的单应用扩展成多应用,并实现工作流组件,包括:多应用模块设计、工作流模块设计、LangGraph实现图应用、前端Vue-Flow组件使用、工作流转LLM工具设计思路、关联工作流登技巧。
296 3
企业级LLMOps落地指南:蜂巢架构×可视化编排实战
|
5月前
|
消息中间件 人工智能 安全
企业级AI应用需要系统工程支撑,如何通过MCP大模型架构实现全链路实战解构?
本文三桥君深入探讨了MCP大模型架构在企业级AI应用中的全链路实战解构。从事件驱动、统一中台、多端接入、API网关、AI Agent核心引擎等九个核心模块出发,系统阐述了该架构如何实现低耦合高弹性的智能系统构建。AI专家三桥君提出从技术、内容、业务三个维度构建评估体系,为企业级AI应用提供了从架构设计到落地优化的完整解决方案。
296 0