电商项目之数仓的数据来源|学习笔记

简介: 快速学习电商项目之数仓的数据来源

开发者学堂课程【新电商大数据平台2020最新课程电商项目之数仓的数据来源】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10492


电商项目之数仓的数据来源

 

数据来源介绍

本次项目有三方数据来源

1、业务数据

来源为通过用户在网站上下单、购买支付、等等一系列订单的行为操作,将会存到我们的业务数据库,就是通过我们的后台存到我们的数据库中,这就是用户的业务数据。

业务数据需要通过 Sqoop 或者 Data-X 来进行导入。

业务数据往往产生于事务型过程处理。所以一般存储在关系型数据库中,如 mysql、oracle 。

业务数据源:

用户基本信息(用户注册账号的信息)、商品分类信息、商品信息(商品价格等信息)、店铺信息、订单数据(用户在平台购买下单的信息,为隐私数据,将存在 mysql 数据库中保存好)、订单支付信息、活动信息(网站打折抢购信息)、物流信息等

2、埋点日志

用户在前端操作的时候,它里面进行收集的 log日志,那个啥我们一般都会通过埋点日志来采集到后端服务器,后端服务器会落地到本地磁盘,通过本地磁盘会出现在hdfs上面,这个过程就是用户行为日志数据

埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如 hdfs、hbase。

用户行为日志:

用户浏览、用户点评、用户关注、用户搜索、用户投诉、用户咨询。

3、外部数据

简单来说外部数据是与与三方公司合作的数据。

当前一般公司都会通过线上广告来进行获客,与三方公司合作更多的提取相关数据来进行深度刻画用户及用户群体,另外爬取公共公开数据也是分析运营的常用方式。

外部数据源:

广告投放数据、爬虫数据、三方业务接口数据、微信小程序。

第三方公司提供了一个外部的公共资金接口,我们进行调用即可。拿到一个数据落地到服务器,然后升到磁盘。

这个地方通过 Flame 进行数据采集,采集到 hdfs 上面然后形成一个 hbase 文件。

以上为我们所说的三方数据,本次项目数据都已准备好,只需导入对应的库即可。业务数据导入到 mysql 数据库中,埋点数据直接映射到 hbase 中,外部数据通过 flume 采集即可。

以来哇为例页面中的食品特产、预售、品牌争取即为log 数据。用户点击一些商品时会产生 log 数据,将会保存下来。而用户的订单信息属于业务数据。外部数据则为第三方数据无法查看。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
8月前
|
存储 消息中间件 Java
抖音集团电商流量实时数仓建设实践
本文基于抖音集团电商数据工程师姚遥在Flink Forward Asia 2024的分享,围绕电商流量数据处理展开。内容涵盖业务挑战、电商流量建模架构、流批一体实践、大流量任务调优及总结展望五个部分。通过数据建模与优化,实现效率、质量、成本和稳定性全面提升,数据质量达99%以上,任务性能提升70%。未来将聚焦自动化、低代码化与成本优化,探索更高效的流批一体化方案。
580 12
抖音集团电商流量实时数仓建设实践
|
10月前
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
1000 1
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
353 0
|
SQL DataWorks 数据库连接
实时数仓 Hologres操作报错合集之如何将物理表数据写入临时表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
DataWorks 负载均衡 Serverless
实时数仓 Hologres产品使用合集之如何导入大量数据
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
BI
数仓项目总结--持续更新中
数仓项目总结--持续更新中
225 2
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
243 1

热门文章

最新文章