【计算机三级数据库技术】第14章 数据仓库与数据挖掘-

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。

1 基本概念

数据仓库技术所解决的问题是如何更合理和更有效的组织企业的数据体系,以更好地满足企业信息型应用对数据的要求,降低对企业的数据管理、数据获取和数据集成的成本,提高数据系统响应速度,提高数据质量和数据的一致性。
数据挖掘技术所解决的问题是如何针对具体的分析对象和分析需求,尝试通过智能和自动化的手段把数据转换为有用的信息和知识

2 决策支持系统(DSS)的发展

2.1 基本概念

    操作性数据是指由企业的基本业务系统所产生的数据,操作性数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境
使用DSS的目的是为了增加决策的有效性,而不是为了提高做出决策的效率

2.2 基于数据仓库的决策支持系统

    这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源
    存在两类数据
        原始数据
            一般来自于企业操作性系统,因此也可以称之为操作型数据
        导出数据
            为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用

3 数据仓库技术概述

3.1 数据仓库的概念和特性

    建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用
    四个特征
        主题性
        集成性
        不可更新性
        时间特性

3.2 数据仓库的体系结构和环境

    数据仓库的体系结构
        操作型数据
        操作型数据存储
        数据仓库
        数据集市
        个体层临时数据
    体系的功能
        数据处理
        数据管理
        数据应用

3.3 数据仓库的数据组织

    数据分级别
        早期细节级
        当前细节级
        轻度综合级
        高度综合级
    粒度
        一般将综合级别称为粒度,粒度越大、表示综合程度越高,粒度越小,综合程度越低
        粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询的数据类型
    数据分区
        数据分区问题是数据仓库的另一个重要问题,为了提高数据管理和查询的效率,分区是有效的办法
        分区的方式
            系统层分区
            应用层分区

3.4 元数据

    是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据
    描述存储操作型数据的关系数据库的结构、位置、表的结构、表间关系及各种视图等的数据都是元数据
    建立元数据的目的是主要在于让用户能更快地找到所需的数据,让前台工具和管理员更好地理解和管理数据
    分类
        技术型元数据
        业务型元数据

3.5 操作型数据存储

    目的:为了支持一些特殊的应用功能
        即时OLAP应用
        全局型OLTP应用
    在作为数据源的操作型系统与数据仓库之间存在着一个称为操作型数据存储的(ODS)的数据层
    分类
        ODS I第一类
            数据更新频率是秒级
        ODS II 第二类
            数据更新频率是小时级
        ODS III第三类
            数据更新频率是天级
        ODS IV第四类
            不仅仅包括来自操作型环境的数据,也包括由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果和一些报表信息

4 设计与建造数据仓库

4.1 数据仓库设计的需求与方法

    数据仓库的设计
        数据体系的设计
        应用体系的设计
    企业建立数据仓库的目的
        实现大量的以数据仓库各层数据为基础的基本信息处理功能
    设计方法
        数据仓库的设计过程是按照一定的题域分别设计
        数据仓库的设计过程是按逐个主题逐步建立的过程,那么就需要进行主题域选择
        数据仓库系统设计目标主要在于建立主题数据环境,强调的是数据的集成性,目标在于建立一个全局的一致的数据环境,建立企业的信息资源体系结构的数据核心,并在此基础上,建立基本的觉得支持分析应用

4.2 数据仓库的数据模型

    概念模型
        是用于描述客观世界中的对象及其属性的一种概念性工具
    逻辑模型
    物理模型

4.3 数据仓库设计步骤

    概念模型设计
    技术评估与环境准备工作
    逻辑模型设计
    物理模型设计
    数据生成与应用实现
    数据仓库运行与维护

5 数据仓库的运行与维护

5.1 数据仓库数据的更新维护

    维护的基本思路
        根据某种维护策略,在 一定条件下出发维护操作
        维护操作捕捉到数据源中的数据变化
        通过一定策略对数据仓库中的数据进行相应的更新操作
    维护策略
        实时维护
        延时维护
    捕捉数据源的变化的方法
        触发器
        修改数据源应用程序
        通过日志文件
        快照比较法
    导出数据的维护方法
        一是根据维护对象的数据源对齐进行重新计算
        二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量式维护

5.2 数据仓库监控与元数据管理

    数据仓库监控
    元数据管理

6 联机分析处理(OLAP)与多维数据模型

6.1 基本概念

    OLAP主要用于支持复杂的分析操作,侧重对觉得人员和高层管理人员的决策支持
    数据的多维分析是针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次、采用各种数据分析技术、对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据

6.2 多维分析的基本操作

    钻取
    切片
    旋转

6.3 OLAP的实现方式

    MOLAP基于多维数据库的OLAP
    ROLAP基于关系数据库的OALP
    HOLAP混合型的OLAP

7 数据挖掘技术

7.1 数据挖掘的步骤

    数据准备
    数据挖掘
    结果解释评估

7.2 常见的数据挖掘任务

    分类
    估计
    预测
    相关性分组
    关联规则
    聚类
    描述
相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
数据库 索引
深入探索数据库索引技术:回表与索引下推解析
【10月更文挑战第15天】在数据库查询优化的领域中,回表和索引下推是两个核心概念,它们对于提高查询性能至关重要。本文将详细解释这两个术语,并探讨它们在数据库操作中的作用和影响。
62 3
|
2月前
|
数据库 索引
深入理解数据库索引技术:回表与索引下推详解
【10月更文挑战第23天】 在数据库查询性能优化中,索引的使用是提升查询效率的关键。然而,并非所有的索引都能直接加速查询。本文将深入探讨两个重要的数据库索引技术:回表和索引下推,解释它们的概念、工作原理以及对性能的影响。
94 3
|
3月前
|
存储 缓存 监控
数据库优化技术:提升性能与效率的关键策略
【10月更文挑战第15天】数据库优化技术:提升性能与效率的关键策略
111 8
|
3月前
|
存储 NoSQL 关系型数据库
数据库技术深度解析:从基础到进阶
【10月更文挑战第17天】数据库技术深度解析:从基础到进阶
125 0
|
4月前
|
存储 NoSQL 关系型数据库
非关系型数据库-MongoDB技术(二)
非关系型数据库-MongoDB技术(二)
|
8天前
|
人工智能 物联网 大数据
解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾
在数字化时代,开源已成为推动技术创新和知识共享的核心力量,尤其在数据领域,开源技术的涌现不仅促进了行业的快速发展,也让更多的开发者和技术爱好者得以参与其中。随着物联网、工业互联网等技术的广泛应用,时序数据库的需求愈发强烈,开源的兴起更是为这一技术的创新与普及提供了强有力的支持。
18 3
|
19天前
|
存储 JSON NoSQL
学习 MongoDB:打开强大的数据库技术大门
MongoDB 是一个基于分布式文件存储的文档数据库,由 C++ 编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。它与 MySQL 类似,但使用文档结构而非表结构。核心概念包括:数据库(Database)、集合(Collection)、文档(Document)和字段(Field)。MongoDB 使用 BSON 格式存储数据,支持多种数据类型,如字符串、整数、数组等,并通过二进制编码实现高效存储和传输。BSON 文档结构类似 JSON,但更紧凑,适合网络传输。
56 15
|
2月前
|
负载均衡 网络协议 数据库
选择适合自己的数据库多实例负载均衡技术
【10月更文挑战第23天】选择适合自己的数据库多实例负载均衡技术需要全面考虑多种因素。通过深入的分析和评估,结合自身的实际情况,能够做出明智的决策,为数据库系统的高效运行提供有力保障。
123 61
|
2月前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
62 3
|
2月前
|
缓存 负载均衡 监控
数据库多实例的负载均衡技术深入
【10月更文挑战第23天】数据库多实例负载均衡技术是确保数据库系统高效运行的重要手段。通过合理选择负载均衡策略、实时监控实例状态、不断优化调整,能够实现资源的最优分配和系统性能的提升。在实际应用中,需要根据具体情况灵活运用各种负载均衡技术,并结合其他相关技术,以满足不断变化的业务需求。