开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数仓的数据来源】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10492
电商项目之数仓的数据来源
数据来源介绍
本次项目有三方数据来源
1、业务数据
来源为通过用户在网站上下单、购买支付、等等一系列订单的行为操作,将会存到我们的业务数据库,就是通过我们的后台存到我们的数据库中,这就是用户的业务数据。
业务数据需要通过 Sqoop 或者 Data-X 来进行导入。
业务数据往往产生于事务型过程处理。所以一般存储在关系型数据库中,如 mysql、oracle 。
业务数据源:
用户基本信息(用户注册账号的信息)、商品分类信息、商品信息(商品价格等信息)、店铺信息、订单数据(用户在平台购买下单的信息,为隐私数据,将存在 mysql 数据库中保存好)、订单支付信息、活动信息(网站打折抢购信息)、物流信息等
2、埋点日志
用户在前端操作的时候,它里面进行收集的 log日志,那个啥我们一般都会通过埋点日志来采集到后端服务器,后端服务器会落地到本地磁盘,通过本地磁盘会出现在hdfs上面,这个过程就是用户行为日志数据
埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如 hdfs、hbase。
用户行为日志:
用户浏览、用户点评、用户关注、用户搜索、用户投诉、用户咨询。
3、外部数据
简单来说外部数据是与与三方公司合作的数据。
当前一般公司都会通过线上广告来进行获客,与三方公司合作更多的提取相关数据来进行深度刻画用户及用户群体,另外爬取公共公开数据也是分析运营的常用方式。
外部数据源:
广告投放数据、爬虫数据、三方业务接口数据、微信小程序。
第三方公司提供了一个外部的公共资金接口,我们进行调用即可。拿到一个数据落地到服务器,然后升到磁盘。
这个地方通过 Flame 进行数据采集,采集到 hdfs 上面然后形成一个 hbase 文件。
以上为我们所说的三方数据,本次项目数据都已准备好,只需导入对应的库即可。业务数据导入到 mysql 数据库中,埋点数据直接映射到 hbase 中,外部数据通过 flume 采集即可。
以来哇为例页面中的食品特产、预售、品牌争取即为log 数据。用户点击一些商品时会产生 log 数据,将会保存下来。而用户的订单信息属于业务数据。外部数据则为第三方数据无法查看。