数据仓库基础理论
- HDFS经理 管理1oo台机器,提供一个接口(数据存储)
- HIVE在hadup进行结构化数据处理的解决方案
- Spark基于内存计算快 Maprdeues 100倍
概念
- 数据仓库是一个用于存储,分析,报告的数据系统
- 数据仓库本身不生产任何数据
- 不需要消费任何数据,其结果开放给各个外部应用实例
- 数据仓库目的是构建面向分析的集成化数据环境
数据仓库为何而来
- 读的压力明显大于写的压力
- 面向分析,支持分析
面向主题性
数据仓库面向主题,在抽象层面上对数据进行完整,一致和准确的描述
集成性
- 数据通常会分布在多个操作系统中,彼此分散,独立,异构
非易失性、非异变性
- 数据仓库是分析数据的平台,而不是创造数据的平台
- 数据仓库的数据反映的是一段相长的时间内历史数据的内容
- 数据仓库中一般有大量的查询操作,但修改和删除操作很少
时变性
- 数据仓库i的数据需要随着时间的更新,以适应决策的需要
OLTP、OLAP
概念
- 联机事务处理OLTP(小)
- 焦点在当下
- 联机分析处理OLAP(大)
- 主要面向过去,面向历史,实时数仓除外
数据仓库、数 据库
区别
- 数据库是为了捕获数据而设计,数据仓库是为了分析数据而设计
OSD层
- 操作型数据层
- 未经过处理的原始数据至数据仓库系统,是数据仓库的是数据准备区
DW层
- 数据仓库层,完成数据加工与整合
DA层(或ADS层)
-数据应用层,面向业务定制提供给产品和数据分析使用的数据
ETL
- 数据仓库从各数据源获取在数据仓库内的数据转换和流动都可以认为是ETL