小打卡:快速部署大数据计算平台实践

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 小打卡目前已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。在庞大的用户量背后,MaxCompute产品的搭建显得尤为重要。

一、业务背景

小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因:
1、成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2、效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3、性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4、安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。

二、大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构:

image.png

面向小打卡的各项业务场景,所需的基本产品搭配:

1、用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2、数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3、线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4、推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS

实践case:

1、业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数

2、阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI
DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日,快速搭建大数据平台:
步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓
1.在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。

image.png

image.png

2.DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。

image.png

在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。
业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。

image.png

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库
阿里云的数据集成提供丰富的数据源支持:
文本存储(FTP/SFTP/OSS/多媒体文件等)
数据库(RDS/DRDS/MySQL/PostgreSQL等)
NoSQL(Memcache/Redis/MongoDB/HBase等)
大数据(MaxCompute/AnalyticDB/HDFS等)
MPP数据库(HybridDB for MySQL等)

image.png

继续在DataStudio中开发物理模型和ETL任务。

image.png

image.png

发布任务流程,并在运维中心中调度和监控

image.png

3.将数据接入Quick BI,交付业务部门使用。

目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。
但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
12天前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
2天前
|
运维 自然语言处理 算法
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
|
2天前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
3天前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
31 3
|
3天前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
3天前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
2月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
104 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
240 92
|
4月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
866 7