电商项目之建模分析(8个问题)|学习笔记

简介: 快速学习电商项目之建模分析(8个问题)

开发者学堂课程【新电商大数据平台2020最新课程:电商项目之建模分析(8个问题)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/640/detail/10495


电商项目之建模分析(8个问题)

 

本节主要讲建模分析的8个问题及其解决方向

image.png

问题1:临时取数需求占用数仓人员大部分时间

在正常开发工作当中,可能会提出一些临时需求,比如产品经理会根据客户需求提出一些相关需求,临时需求产生之后,需要有人去做,这样开发人员的大部分时间会被占用,因此就会无法完成自己的工作。

解决方向:自动取数和 OLAP 系统

系统需要提前做出来,为后面的客户需求提供一个数据支持,减少临时需求的产生,节省开发人员的时间。

问题2:数仓规范和流程不一致,跨部门合作

比如,如果规则流程不清晰,之后进行开发就会遇到很多问题,导致后续一些开发人员无法进行正常对接。

跨部门合作,比如,做大数据的工作人员可能会和测试组或者后端开发组进行交物,这时各部门所负责的工作对方都不懂,就可以各自去学习相关的开发文档或规范文档。

解决方向:建模规范和开发规范

问题3:指标口径不一致导致数据可信度下降

比如,运行一个数据执行两次任务的时候,结果可能不一致,首先要分析数据,检查是否丢失数据。两次结果不相同,可能是数据有问题,也可能是计算引擎有问题。

解决方向:指标字典

问题4:数据膨胀导致计算资源紧张,出数时间得不到保障

比如,在电商行业,某一个时间点数据量非常大,这时预估资源可能会不够,计算资源有限,导致任务运行效率降低,运行时间拖长,出数时间得不到保障。所以,我们在开发文档建模过程中,需要把预估资源合理利用好。

解决方向:建模规范和开发规范

数据产品和服务化(后面会说到数据产品和服务化的具体意思)

问题5:问题排查和异常数据处理时间过长

比如产生一个异常之后,我们可能会花大量的精力和时间去解决这个问题,这时开发时间就会减少。我们可以通过原数据的管理和数据的质量监控来去监控这些问题。

解决方向:元数据与数据质量监控(不是解决问题的办法而是进行数据的侦查,分析问题产生的地方,之后再解决问题)

问题6:数据安全和数据共享矛盾不可调和

比如用户的基本信息数据,身份证,手机号等隐私数据我们接触不到。所以要使用的时候,我们需要向组长或者项目经理甚至开发总监申请调用,这时就需要进行一步步审批,审批的步骤可能相当复杂。

后端开发或是大数据开发都必须保证数据安全。

解决办法:数据分级与权限管理

问题7:产出形式单一

比如做开发时,只是简简单单写出一个报表,没有特别高的价值,而且任务比较单一化。如果后续,有一些画像或推荐系统等做数据支持,就会更有意义。

解决方向:数据产品和服务化

问题8:业务需求响应不及时

与数据膨胀导致计算资源紧张类似,比如在开发时,我们定义好某个任务要跑多久,之前 UM2跑的时候可能没什么问题,但是数据量一增大, UM2的性能大大降低,这时可能需要用到 spark 去跑,来提高效率,在规定时间内完成任务,所以我们需要设计一些备选方案。

解决办法:自动取数和 OLAP 系统

数据产品和服务化

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
SQL 关系型数据库 MySQL
mysql索引(七)唯一索引
唯一索引(UNIQUE):与"普通索引"类似,不同的就是:索引列的值必须唯一,但允许有空值。
692 0
mysql索引(七)唯一索引
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
346 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
SQL 存储 OLAP
如何基于维度模型自动化生成SQL语句
众所周知数据分析的核心是数据,为了更容易的分析数据,数据模型的设计需要遵循一定的规范。当前最流行的联机分析处理(OLAP)的规范为维度建模规范。本文介绍Quick BI如何进行维度建模,基于维度模型如何来自动化的生成分析查询的SQL语句,从而使数据分析变得更容易。
2741 0
|
SQL 消息中间件 分布式计算
Flink 面试指南 | 终于要跟大家见面了,我有点紧张。(附思维导图)
面试,一个令人大多数同学头疼的问题,要么成功进入心仪公司,要么沮丧与其失之交臂。但是,如果能在面试前就能知道面试官将会问的问题,然后可以好好提前准备,这种感觉是不是特别棒?
Flink 面试指南 | 终于要跟大家见面了,我有点紧张。(附思维导图)
|
9月前
|
存储 人工智能 自然语言处理
关于计算机视觉中的自回归模型,这篇综述一网打尽了
这篇综述文章全面介绍了自回归模型在计算机视觉领域的应用和发展。文章首先概述了视觉中的序列表示和建模基础知识,随后根据表示策略将视觉自回归模型分为基于像素、标记和尺度的三类框架,并探讨其与生成模型的关系。文章详细阐述了自回归模型在图像、视频、3D及多模态生成等多方面的应用,列举了约250篇参考文献,并讨论了其在新兴领域的潜力和面临的挑战。此外,文章还建立了一个GitHub存储库以整理相关论文,促进了学术合作与知识传播。论文链接:https://arxiv.org/abs/2411.05902
314 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
4月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。
|
存储 JSON 安全
如何使用 JSON Web Tokens 进行身份验证?
总的来说,JWT 是一种强大而灵活的身份验证方式,通过正确使用和管理,可以为应用提供可靠的身份验证机制,同时提高系统的可扩展性和安全性。在实际应用中,需要根据具体的需求和场景,合理设计和实施 JWT 身份验证方案。
370 63
|
10月前
2024阿里云技术年报 基础设施篇
2024阿里云技术年报 基础设施篇
272 11