Why data mining| 学习笔记

简介: 快速学习 Why data mining。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):Why data mining】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/14494


Why data mining

 

继续数据挖掘与数据仓库的学习,关于知识挖掘的过程,业内并没有一个明显的界定,不同的行业不同背景的人对知识发掘的理解是不一样的。

首先,从数据管理的角度,也就是从数据库和数据仓库的角度,向大家介绍知识发现的过程。

image.png

知识发现的过程包括数据清理,数据集成,数据的选择和变化,数据挖掘和知识评估这几个阶段。

数据清理主要是把数据中的脏数据通过清理变成有干净的数据,因为现实数据是存在噪音异常,甚至是存在错误的。数据挖掘不能直接在这些有问题的数据上进行,所以首先要进行数据清理,因为数据挖掘所使用的数据,可能来源于多个数据源,因此,需要把这些来源于不同地方的数据集成。

经过数据清理和集成的数据,把它放到数据仓库中进行统一的管理。在数据仓库中,面向特定的数据挖掘任务,需要进行选择,选择和任务相关的数据进行数据挖掘。

由于数据挖掘算法对数据格式是有要求的,有些算法需要要求数据是离散的,因此,必须要把数据转换成能直接运用数据挖掘算法的数据,然后再得到和数据相关任务符合的基础上进行数据挖掘,从而得到相关的模式或知识。

这些模式和知识经过知识评估,最后得到我们想要的知识。在数据挖掘过程中,可能会产生数据仓库,和任务相关的数据,以及产生一些重数据,挖掘技术的模式以及最后想要得到的知识。

在学习知识挖掘过程的知识点的时候,有两点需要注意,第一点就是在数据挖掘之前的步骤,把它称之为数据应预处理,数据预处理占道整个过程的70%以上,也就是数据挖掘的70%以上的人力和精力都会消耗在数据预处理上。

其次,要注意数据挖掘过程不可能是一帆风顺的,通过知识评估,有可能会发现得到的知识或模式,他们不是有效的。这个时候需要有效分析错误产生的原因,到底是之前哪个环节没有做好,数据清理还是数据转换没有做好,是不是数据挖掘的算法不合适?甚至是不是数据清理的工作没有做好?如果这些环节都考虑到了,依然没有得到合适的知识和模式,那甚至需要考虑使用的数据是不是有效的?是不是考虑的信息比较少?需要别的数据员的信息进行分析,也就是说,在知识发现的过程中,各种步骤是迭代循环的,必须在数据挖掘中倒回到各个步骤,查看到底是哪个环节产生的问题。

从数据管理的角度,对知识发掘的过程进行理解,来看一下在商业智能这个领域对知识发现过程的理解。

image.png

她的最底层依然是收集数据,在收集数据后,是对数据进行预处理,数据的集成,然后会做一个叫数据探索的工作,之后再做数据挖掘,得到数据之后,再做一个数据的展示,最后把得到的知识用于决策。在商务智能领域,能够发现这是挖掘多了两个环节,一个是数据探索,一个是数据展示,数据探索是指利用数据可视化,和数据统计感受使用的数据,分析状态和分布。数据展示是指在得到挖掘结果之后,把数据和数据挖掘的结果,用图表展示出来,也就是说,在商务智能领域,数据挖掘是非常重视数据可视化阶段的,那为什么数据可视化在商业智能领域这么重要呢?

这主要是因为商务智能中,数据发现主要是为管理人员提供服务的,管理员会用这些知识去做决策,数据挖掘的算法并不是非常的专业,所以必须要用数据可视化的方式将数据和得到的结果,用图表的形式展示给用户,这样管理人员就能更好地理解数据挖掘的结果,也便于他们有效的做决策,这就是在商务智能领域数据挖掘的过程。再看一下,从机械学习的角度学习数据挖掘的过程,

image.png

数据挖掘的过程主要分为三步,在数据挖掘之前的步骤被称为数据预处理,在数据挖掘之后,把这些步骤叫做数据后处理,数据的预处理包含了数据的集成,正则化,特征范围选择等操作,后处理包含了模式的评估,模式选择,模式的解释和模式的可视化。

相关文章
|
Java Apache Maven
使用checkstyle来规范你的项目
Checkstyle是什么 自从做了程序员,关于格式化的讨论就不曾中断过,到底什么才是正确的,什么才是错误的,到现在也没有完整的定论。但随着时间发展,渐渐衍生出一套规范出来。没有什么绝对的正确和错误,关键在于规范的定义。
6199 0
|
11月前
|
人工智能
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。
483 8
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
|
算法 数据可视化 PyTorch
IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析
本文探讨了目标检测中常用的交并比(IoU)及其变体,包括广义交并比(GIoU)、距离交并比(DIoU)和完全交并比(CIoU)。这些指标不仅提高了模型在处理不重叠、距离较远或形状差异大的边界框时的表现,还为模型的学习过程提供了更深入的洞察。文章详细解释了各指标的计算方法及应用场景,并提供了相应的代码示例,帮助读者更好地理解和应用这些先进的评估指标。
1033 7
IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析
|
自然语言处理 JavaScript 前端开发
静态文档网站生成神奇器:VuePress!尤雨溪的旧爱!
【10月更文挑战第3天】静态文档网站生成神奇器:VuePress!尤雨溪的旧爱!
静态文档网站生成神奇器:VuePress!尤雨溪的旧爱!
|
Linux Docker 索引
CentOS7安装Docker
CentOS7安装Docker
373 6
|
Java Linux 测试技术
Maven命令大全:从安装到部署,一篇文章带你玩转Maven
本文由木头左介绍Maven,一个用于Java项目管理的工具,涉及Maven的安装配置(Windows和Linux)及核心命令,包括install、package、compile、clean、deploy、test、verify和site。通过这些命令,可以实现构建、打包、编译、测试、部署和生成项目站点等操作。
|
SQL 安全 数据安全/隐私保护
DVWA CSRF 通关解析
DVWA CSRF 通关解析
|
消息中间件 关系型数据库 Kafka
实时计算 Flink版操作报错合集之在进行数据处理时,遇到文件末尾添加了回车换行符但仍然报错,该怎么解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
前端开发 JavaScript 索引
uniapp的u-album组件自定义删除功能
这样,你就可以在u-album组件中实现自定义的删除功能了。需要注意的是,这个删除操作只是在前端删除了图片项,并没有在后端删除对应的图片文件,如果你需要在后端也删除对应的图片文件,你还需要在删除操作后发送一个请求到后端,让后端删除对应的图片文件。
299 0
|
数据采集 机器学习/深度学习 存储
性能提升30%!中国电信进一步开源12B星辰大模型TeleChat-12B!魔搭社区最佳实践来啦!
中国电信人工智能研究院开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域提升超40%。在C-eval、MMLU、AGIEVAL等国际权威榜单上,排名处于国内同级别参数开源模型的前列,进一步促进大模型开源生态繁荣,助力AI产业加速高质量发展。另据悉,中国电信人工智能研究院将于年内开源千亿级参数大模型。