【MaxCompute】 核心场景

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 在云计算、大数据时代,数据仓库的重要性毋庸置疑,其建设也在不断的进化中。某知名新零售客户在横向对比之后,毅然决定基于 MaxCompute 强大的计算能力进行数据仓库的建设。

MaxCompute核心场景


云数据仓库

在云计算、大数据时代,数据仓库的重要性毋庸置疑,其建设也在不断的进化中。某知名新零售客户在横向对比之后,毅然决定基于 MaxCompute 强大的计算能力进行数据仓库的建设。


挑战

  • 数据仓库:
  • 需要在打造在线数仓,在线完成数据开发、数据清洗和转换等任务。
  • 通过数仓构建可视化数据展示的应用,即时展示营收数据,便于运营和决策快速调整。
  • 推荐引擎:打造短视频和图片的推荐引擎,需要具备便捷性和灵活性的在线产品,支持多种算法和过滤体系。
  • 算法平台应用:
  • 基于元信息的回归:作为一个 UGC 的平台,用户上传内容的质量是参差不齐的,为了保证平台内容的质量。编辑进行了很多精选和挑选的工作。如何提升编辑的筛选效率是当前需要解决的关键问题。
  • 近义词:需要有一套高效的算法优化搜索的体验,使用户在搜索时更容易获得目标内容。
  • 业务总线:需要提升一些应用场景(搜索热词统计、实时热度统计)的响应速度、实时触发业务事件,支撑类似于发送优惠券、推送消息等业务。


解决方案

1、基于数据仓库的方法论在阿里云大数据平台上建设的数据仓库,通过简单的命名规则就构建起各种层级和维度的数据,依赖 MaxCompute 的强大计算能力,和简单的 SQL 处理语言,公司技术团队只有一名数据工程师就能快速生产出各种数据,以支撑各种 BI 报表。


2、流计算的引入,提高了公司业务的实时表达能力而又没有增大开发成本。对某些业务还起到了异步,解耦和降级的作用,大大降低了对线上已有的复杂业务的影响,因而降低了开发和维护成本。


3、与机器学习算法平台 PAI 的对接也帮助了公司技术团队在机器学习等高难度领域大数据应用的探索,比如尝试了训练回归模型对用户上传视频的打分,还有对文本的处理聚类等。


4、基于统一的数据存储和计算,公司通过对用户的特征抽取,开发了自己的一套基于内容的推荐模型(通过用户对内容的行为,在 MaxCompute 中通过 SQL/MR 的计算生成用户特征,通过 DataX 存储在 OTS 中,在实时的计算中获取并对用户进行基于兴趣的内容推荐),和阿里云推荐引擎一起,为用户提供个性化内容,也取得了不错的效果。同时也在智能搜索方面做了初步的尝试。


收益

  • 不需要像传统大数据业务一样构建一个非常复杂的 Hadoop 栈,并且对其进行运维,节省了金钱和时间成本。
  • MaxCompute 的整个生态系统设计的比较完善,无需专职数据团队,降低了人员成本。
  • 得益于 MaxCompute 的生态,可以在 21 天内搭建推荐系统。
  • 借助阿里云实时计算非侵入实现业务总线,满足了绝大部分场景。


架构

image.png


湖仓一体

MaxCompute 提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。


挑战

  • 随着公司业务的飞速发展,业务所用计算资源消耗越来越大,自建 CDH 集群扩展性差,扩容操作难度高且有一定操作风险;昼夜资源使用不均,导致资源无法合理使用;CDH 集群使用本地SSD 磁盘,存储费用高,CDH 组件的压力日益变大。
  • 员工日益增多组织架构日趋复杂,CDH+EMR 混合云架构出现瓶颈。部门计算资源不能有效隔离,元数据管理不完全统一,用户权限管理不统一,HDFS 和对象存储上的数据有冗余。
  • 后期,湖仓计算不能自由流动,异构计算引擎元数据管理不统一,存储管理不统一,权限管理不统一。


解决方案

基于 MaxCompute+Data Lake Formation +E-MapReduce 的湖仓一体架构。


收益

  • 统一的元数据管理:统一把 ERM 的元数据和 MaxCompute 元数据保存在 DLF
  • 统一的存储管理:统一把 EMR MaxCompute 外表的数据,保存在数据湖的 OSS 中。
  • 湖仓计算自由流动:EMR 创建的表 MaxCompute 可以马上读到,MaxCompute 创建的表也可以马上被 EMR 读到,真正做到了湖仓之间计算的自由流动。、


架构图

image.png


日志大数据分析

某天气信息查询软件客户将日志分析业务从云下Hadoop 集群迁移到阿里云 MaxCompute 后,开发效率提升超过 5 倍,存储和计算费用节省了 70%,更高效的赋能其个性化运营策略。


挑战

公司运营团队每天最关心的是用户正在如何使用 APP,在他们操作中透露了哪些个性化需求。这些数据全部存储在公司的 API 日志中,对这些数据分析,就变成了运营团队每天最重要的工作。公司API 每天产生的日志量大约在 2TB左右,主要的日志分析场景是天气查询业务和广告业务。


用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。公司运维部经理介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。 之前公司使用国外某云计算服务公司的云服务器存储这些数据,利用 Hadoop MapReduce Hive 对数据进行处理分析,但是存在以下问题:


1、成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。

2、网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用  网络带宽,彼此之间相互干扰造成数据传输不稳定。


解决方案

针对上述情况,公司将日志分析业务逐步迁移到阿里云大数据平台之上。

方案涉及的阿里云大数据平台组件有:

  • 云原生大数据计算服务(MaxCompute
  • 大数据开发治理平台(DataWorks
  • 流计算(StreamCompute,规划中)
  • 流式数据服务(DataHub

另外,由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,客户开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。


收益

1、迁移到MaxCompute 后,流程上做了优化,省掉了编写 MR 程序的工作,日志数据全部通过SQL 进行分析,工作效率提升了 5 倍以上。

2、存储方面,MaxCompute 的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。

3、可以借助MaxCompute 上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。

4、阿里云 MaxCompute 提供更为易用、全面的大数据分析功能。MaxCompute 可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。


架构图

image.png

>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
机器学习/深度学习 分布式计算 数据挖掘
MaxCompute 应用场景实践
MaxCompute 应用场景实践
294 0
|
2月前
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。
|
4月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
96 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
4月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
63 9
|
4月前
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
103 4
ly~
|
4月前
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
1080 2
|
5月前
|
人工智能 编解码 搜索推荐
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
|
6月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
6月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
6月前
|
存储 关系型数据库 大数据
PolarDB 大数据处理能力及其应用场景
【8月更文第27天】随着数据量的爆炸性增长,传统的数据库系统面临着存储和处理大规模数据集的挑战。阿里云的 PolarDB 是一种兼容 MySQL、PostgreSQL 和高度可扩展的关系型数据库服务,它通过其独特的架构设计,能够有效地支持海量数据的存储和查询需求。
159 0