大数据平台进度,它来了

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 小型大数据平台,持续沉淀,从0-1。

大家好,我是脚丫先生 (o^^o)

又是元气满满的周一。

然而,我自己除了瞌睡还是有点瞌睡,不知道小伙伴们是否一样。

一直以来我负责着大数据平台的工作,但是都是很模块化的,交付的项目大多数都是满足即可。

总是无法沉淀一个完善的产品,甚是遗憾。

因此,自己想研发属于自己的大数据平台。

希望未来的日子里,自己能不断的,轻抚它,优化它。

也希望未来的日子里,依然有输出「Hello World」的喜悦

image.png

整个大数据平台预计明年开源出来,多多与小伙伴们一起交流,一起进步!!!

虽然很烂,但是有一句话,不是这样说的嘛,重复才能产生伟大,我想说,重复并不是循环从0~1,而是从0.1~1、0.2~1、0.4~1,要在一定的势能基础上,继续加固和创新。

登陆页面

登陆页面和基本的后台管理一致。

基本没啥难度,都属于后端和前端的登陆、权限知识。
image.png

该页面以星空为背景,我感觉还是挺好看的,大数据正如星河般的数据,那么的无穷尽。

首页

首页页面,面板还没有确定具体的思路的研发。

不过自己有两个想法:

1.首页面板显示方法论,一般而言大数据平台是很复杂的,没有具体的操作手册,很难玩明白。

2.首页面板显示数据仓库里的每层数据容量,做一个图的可视化。

image.png

主菜单:

数据汇聚、数据开发、数据质量、数据集市、可视化、平台基础

数据汇聚

数据汇聚模块,目前进度80%

数据汇聚模块,名如其意,就是常常说的数据采集,属于大数据平台的基石。

该模块其实是集成了Datax-web。

修改了前端和优化了后端。

image.png

因为,之前我们小组一直是以datax进行异构数据源的采集,这方面稍微有点经验。

不过之后,还是想开发爬虫程序到数据汇聚模块,想获取到真实的数据,利用大数据平台,走完整个数据仓库流程。

数据开发

数据开发模块,进度为0%

不过,自己也是有想法的,暂时先完成离线开发。

思路以Hive为数据仓库,可视化的拖拽和自定义SQL组件进行数据的ETL,调度系统集成强大的Airflow。

之所以调度系统选择Airflow,主要是之后开发的数据科学模块,以Python语言为主。

数据治理

数据治理模块,目前进度50%

数据治理的核心工作:在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。

数据治理将全程监控整个数据流程,有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。

image.png

在数据治理模块中,主要研发了元数据管理,数据质量管理,数据标准管理。

当然,数据治理体系的建设还有其他的模块,目前仅限于此。

image.png

数据集市

数据集市模块,目前进度20%

数据集市,把Hive数据仓库里建模完成的主题数据,通过API接口的方式被访问。

image.png

数据可视化

数据可视化模块,目前进度已经完成,调试修改阶段

数据可视化,该模块可以直接抽取Hive仓库里的数据,进行简单的统计分析,直接出图。
image.png

平台基础

平台基础模块,目前进度已经完成。

主要以集群管理、系统管理、系统日志。

image.png

谈谈集群管理。

集群管理,主要是监控HDFS和Yarn的资源、任务,并以图的方式进行展示。

存储概览:监控HDFS的资源、节点、文件数等信息。

计算概览:监控Yarn上任务的运行状况、资源等信息。

监控概览:监控服务器的Cpu、内存等信息。

总结

大数据平台管理,是想完成一个自研的项目,在不断学习的同时、不断的优化。

争取 0->0.1---->1这个过程。

最后想完成持续的业务场景

比如说:

通过数据汇聚里的爬虫,对游民星空的游戏数据进行爬取,进入Hive数据仓库里,利用数据开发,进行ETL流程的统计分析,并且以调度的形式周期的进行。整个过程数据治理全程支撑。

最后利用可视化模块进行游戏统计指标的可视化展示。

实现数据的OneData过程。

或者,在数据仓库里完成建模以后,形成数据资产,以数据集市的api接口的方式提供给其他的应用。

实现数据的OneService过程。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
存储 JSON 大数据
大数据离线数仓---金融审批数仓
大数据离线数仓---金融审批数仓
636 1
|
15天前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
348 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
2月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
移动开发 JSON 分布式计算
【最佳实践】实时计算Flink在游戏行业的实时数仓建设实践
随着互联网和移动互联网的相互促进与融合,以及PC终端和各类移动终端在智能化和便携性上的趋同,游戏产品跨平台运行于各类终端的需求逐步显现。
|
7月前
|
SQL 运维 安全
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
2123 2
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
7月前
|
数据采集 存储 Oracle
高效元数据采集与管理 -- Dataphin新功能助力数据驱动业务增长
Dataphin作为领先的数据开发与治理一体化平台,全新推出元数据采集与管理功能,可支持多种采集源,并能对采集到的元数据对象进行统一管理和运营,同时可对接丰富的下游应用,为企业在数据管理各个环节提供强有力的支持。
223 2
|
7月前
|
安全 数据挖掘 大数据
Dataphin推出“资产消费”功能,助力提升数据分析效率与体验
在数据驱动的时代,企业数据资产的有效管理与高效利用成为了企业数字化转型的关键。面对复杂多变的业务场景和日益增长的数据需求,如何确保数据资产的安全访问、便捷查找与灵活消费,成为众多数据平台负责人的共同挑战。Dataphin,作为一站式大数据智能建设与管理平台,在V4.2版本中全新推出“资产消费”新功能,旨在通过统一权限管理并打通 BI 平台,为企业数据资产管理与消费带来便捷体验。
293 0
|
9月前
|
消息中间件 SQL Kafka
实时计算 Flink版产品使用合集之构建实时数据仓库时,如何操作在几分钟内一直变化的表
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
9月前
|
SQL 监控 安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全
222 0
|
9月前
|
SQL 运维 监控
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
172 0