数据挖掘——数据挖掘过程

简介: 数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程 数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。

3cd99bf2b2f847e0e48efa50e404f90b4977916f

数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程


数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。


这个过程可能循环许多次。


适合数据挖掘的一般实验性程序包括一下步骤:



  1.陈述问题,阐明假设 

    在这一步中,建模人员通常会为未知的相关性制定一组变量,如有可能,还会指定此相关性的一个大体形式作为初始假设。在这个阶段,可能会给一个问题提出几个假设。这一步要求将应用领域的专门技术和数据挖掘模型相结合。


  2.收集数据

   这一步考虑数据是怎样产生和收集的。通常有两种截然不同的可能性。第一种是数据产生过程中在专家(建模者)的控制下:这称为“有计划的实验”。第二种情况是专家不能影响数据产生过程:这称为“观察法”。在大多数数据挖掘应用中都采用了观察法,即数据是随机产生的。

   

  理解数据搜集如何影响其理论分布是相当重要的,而且还要确保用于评估模型的数据与后面用于检验和应用于模型的数据都来自同一个位置的取样分布


  3.预处理数据

   在观察法中,数据常常采集于已有的数据库,数据仓库和数据集市。数据预处理通知至少包含两个常见的任务:

   1. 异常点的监测(和去除) 对异常点有两种处理方法:a. 检测并最终去除异常点,作为预处理阶段的一部分。b. 开发不受异常点影响的健壮性建模方法。

   2. 比例缩放,编码和选择特征

 

 备注:考虑数据预处理步骤时,不应完全独立于数据挖掘的其他阶段。在数据挖掘过程么次迭代中,所有活动都能为后面的迭代定义改进的新数据集。通常,以专有于某个应用的比例缩放和编码形式来合并先验知识,优秀的预处理方法能为数据挖掘技术提供最佳的陈述。

  

  4.模型评估

  选择并实现合适的数据挖掘技术是这一阶段的主要任务。


  5.解析模型,得出结论

   大多数情况下,数据挖掘模型应该有助于决策。因此,这种模型必须是可解释的才能有用。现代的数据挖掘方法寄望于使用高纬度的模型来获得高精度的结果



目录
相关文章
|
JavaScript 应用服务中间件 nginx
vuecli3打包项目上线之后报错怎么使用本地的sourcemap文件定位调试?
vuecli3打包项目上线之后报错怎么使用本地的sourcemap文件定位调试?
374 0
|
4月前
|
人工智能 分布式计算 DataWorks
大数据AI产品月刊-2025年7月
大数据& AI 产品技术月刊【2025年7月】,涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
6月前
|
存储 传感器 安全
数据不是“铁打的”,从出生到销毁它也有生命周期
数据不是“铁打的”,从出生到销毁它也有生命周期
478 1
|
7月前
|
数据采集 人工智能 大数据
大数据+商业智能=精准决策,企业的秘密武器
大数据+商业智能=精准决策,企业的秘密武器
249 28
|
7月前
|
机器学习/深度学习 数据采集 算法
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
406 12
|
7月前
|
存储 数据采集 安全
数据治理:别让你的数据成为“垃圾堆”!
数据治理:别让你的数据成为“垃圾堆”!
185 3
|
C# 容器
C#中的命名空间与程序集管理
在C#编程中,`命名空间`和`程序集`是组织代码的关键概念,有助于提高代码的可维护性和复用性。本文从基础入手,详细解释了命名空间的逻辑组织方式及其基本语法,展示了如何使用`using`指令访问其他命名空间中的类型,并提供了常见问题的解决方案。接着介绍了程序集这一.NET框架的基本单位,包括其创建、引用及高级特性如强名称和延迟加载等。通过具体示例,展示了如何创建和使用自定义程序集,并提出了针对版本不匹配和性能问题的有效策略。理解并善用这些概念,能显著提升开发效率和代码质量。
472 4
|
9月前
|
存储 机器学习/深度学习 数据挖掘
数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?
数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?
1283 17
|
8月前
|
存储 Unix Shell
Shell 输出命令完全指南:echo 与 printf 的深度剖析
本文深入解析了 Shell 编程中 `echo` 和 `printf` 两个核心输出命令的用法与区别。`echo` 简单易用,适合基础输出;`printf` 功能强大,支持复杂格式化。文章从语法、转义序列、高级技巧到实际应用场景(如日志记录、进度显示)逐一讲解,并对比两者的性能与适用场景,帮助开发者根据需求灵活选择。最后通过进阶技巧和常见问题解答,进一步提升对两者的掌握程度。
426 1