数据转换| 学习笔记

简介: 快速学习数据转换。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):数据转换】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15632


数据转换

 

内容分析:

一、数据转换的含义及方法

二、数据转换包含内容

 

一、数据转换的含义及方法

1、定义:数据转换指的是通过变换将数据转换成适用于数据挖掘任务的数据,即得到面向特定数据挖掘任务的数据。

将数据转换看成一个函数映射,通过数据转换可以将原始的属性值变转换成一个新的属性值。

2、方法:通过一些简单的函数进行数据转换。

通过这些简单的函数映射,可以将原始的属性值变成一个新的属性值。

 

二、数据转换包含:

1、规范化

⑴含义:规范化指的是对数据进行变换,使之落入到一个比较小的特定区域。

⑵作用:通过规范化,可以统一各个属性的量纲。

⑶常用的规范化方法:极大极小值规范化、 Z-score 规范化以及小数定标法。

①极大极小值规范化方法:

计算公式:

image.png

image.png表示的是属性之前的范围。image.png表示是转换后的范围

例如:对于收入,它的初始范围是12,000~98,000之间,想让它落入到0~1的区间之内,通过这个公式就可以实现,通过这个公式,73,600的这样的一个收入就会转化成为0.716。

image.png

②  Z-score 规范化方法

计算公式:

image.png

image.png代表的是这个属性的均值,image.png代表的是这个属性的标准差

例子:假设收入这个数据的均值是54,000,标准差是16,000,那么收入73,600就可以转化为1.225。

image.png

③小数定标法

公式:

image.png

j 是使得 Max (∣v′∣)<1的最小整数

例子:假设属性取值范围是-975~923,那么 a 的最大绝对值就是975,使它小于1的最小整数,j是等于3。因此转换直接除以10的三次方就可以。比如说900就被规范为0.9。

2、离散化

⑴定义:离散化指的是将连续类型的属性变换成为有序属性

⑵在数据挖掘算法中有很多算法对属性是有要求的。比如说要求属性必须是离散类型的,这个时候就必须对数据进行离散化。

根据理想化的数据是用于非监督学习任务还是监督学习任务,理想化方法分为:监督离散化方法和非监督离散化方法。

①对于无监督离散化方法主要包含分箱、直方图和基于聚类的方法。

Ⅰ基于分箱的离散化方法主要包含等宽的分箱方法和和等身的分箱方法。

等宽的分箱方法是将属性域分割为宽度相同的间隔,比如属性区间为A 到 B ,希望将该属性离散为 N 个间隔,那么其宽度即为( B - A )/ N 。等宽的封箱方法对于异常值是很敏感的,所以等宽的分享方法不适用于倾斜数据的理想化。

示例:这幅图展示的是一组数据。这种数据它是具有两个属性,x 属性和 y 属性。对于 x 属性取值范围是0~20。如果希望将这个属性分割为4个间隔,那么它的宽度就是(20-0)÷4=5。根据间隔我们可以把这个属性分割成为0~5,5~10,10~15和15~20这4个区间,那么每个区间的宽度都是相同的。

image.png

等身的分箱方法是将属性分割为N个间隔,落入每个间隔的数据对象大的个数是相同的。

示例:对于刚才这组数据的x属性使用等身分箱方法进行离散化,可以看到依然是分成了4个间隔,落入到每个间隔的数据对象的个数是相同的,但是这4个间隔的宽度大家可以看到是不一致的。

image.png

Ⅱ基于聚类的方法

如图所示使用 k-means 算法对 x 属性进行聚类,得到四个簇,根据每一个簇的取值范围得到4个不同的间隔。

image.png

如果理想化的数据后续要用于有监督的学习任务,就需要使用一些面向有监督学习任务的理想化方法。

②对于监督离散化方法主要包含基于商的方法和基于卡方的方法。

Ⅰ基于熵的方法适用于分类领域

对于数据离散化,需要选择一个分裂点,根据分裂点将数据分成两个间隔。

基于熵的数据转化方法中,会选择具有最大信息争议的分裂点作为最佳分裂点将数据一分为二。

对于一个数据集 D,用 p 来代表它的每一个类别的概率,如果这个数据集 D 它有 m 类,

其信息熵的计算公式为:

image.png

Info(D)指根据数据分布清楚数据集 D 中的每一个数据对象类标签所需要的信息量。

对于这个数据集中的一个属性 S,使用一个分裂点 T,将这个数据集分为两部分 S1和 S2。计算信息熵 Info(D)

image.png

 image.png( T ) 指在知道分论点的情况下,清楚数据集 D 中的每一个数据对象的标签需要的信息熵。

 image.png( T ) < Info(D),两者之差就是分裂点 T 的信息争议

Gain ( T )指的是这个分裂点对识别数据集 D 中的每一个数据对象类标签的贡献。贡献越大的,这个分裂点就越好。所以要选择具有最大信息争议的分裂点,作为分裂点。

总结:对于基于熵的数据分列方法,首先是选择一个最佳分裂点,将数据一分为二,然后再在各个部分数据中再选择最佳分裂点,再将数据一分为二,依次进行,直到得到间隔数目的要求。

image.png

3、数据聚合

数据聚合就指的是将多个属性值合并成为一个新的属性值。

比如这幅图展示的是澳大利亚的月降水量,根据月降水量,通过数据汇总,可以得到这个地区的年降水量,这样的操作就是叫数据聚合。

image.png

4、属性构造

数据构建是基于已有的属性构造新的属性,并把新的属性加入到原始属性中。

比如知道一个形状的长和宽,那么可以构造这样的一个形状的周长。将周长这个属性加入到原始属性中,以便进行后续的数据挖掘任务。

image.png

相关文章
|
4月前
|
传感器 数据采集 消息中间件
怎么处理多源异构数据?搞不清楚就别谈数据融合!
在数据分析中,处理多源异构数据是关键挑战。本文详解其定义、常见问题及融合策略,结合实际场景提供全流程解决方案,助你高效实现数据价值。
|
Python
按条件将Excel文件拆分到不同的工作表
使用Python的pandas库,可以轻松将Excel文件按条件拆分到不同的工作表中。本文通过一个示例代码展示了如何生成一个包含总成绩表和三个班级表的Excel文件。代码首先创建了一个包含学生姓名、班级和各科成绩的数据框,然后按班级分组,将每个班级的数据分别写入不同的工作表。最后,生成的Excel文件将包含四个工作表,分别为总成绩表和三个班级的成绩表。
229 6
按条件将Excel文件拆分到不同的工作表
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之如何通过执行命令设置环境变量
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
存储 C语言
C语言中a 和&a 有什么区别
在C语言中,"a" 是一个变量的名字,代表存储在内存中的某个值。而"&a" 则是获取该变量的内存地址,即变量a在计算机内存中的具体位置。这两者的主要区别在于:"a" 操作的是变量中的值,"&a" 操作的是变量的内存地址。
2020 23
|
12月前
|
SQL 程序员 Linux
推荐几个不错的数据库设计工具
推荐几个不错的数据库设计工具
1090 11
|
数据采集 Python 数据可视化
[Python] 数据预处理(缺失值、异常值、重复值) [相关方法参数说明、代码示例、相关概念](三)
[Python] 数据预处理(缺失值、异常值、重复值) [相关方法参数说明、代码示例、相关概念](三)
|
机器学习/深度学习 数据采集 Python
机器学习模型的评估与选择标准
【6月更文挑战第1天】机器学习模型的评估至关重要,包括准确率、召回率、F1值和均方误差等指标。准确率衡量预测正确比例,召回率关注找出所有相关样本的能力,F1值是两者的综合。泛化能力同样重要,防止过拟合和欠拟合。不同场景可能侧重不同指标,如医疗诊断更关注召回率。选择模型需综合考虑多个因素,以实现最佳性能。通过实践和探索,我们可以更好地理解和优化模型评估,推动机器学习进步。
350 2
|
编解码
西门子S7-200 SMART中断及中断指令概述
上篇文章我们学习了西门子S7-200 SMART如何使用存储卡复位CPU到出厂设置、固件升级和程序传输,本篇我们来介绍西门子S7-200 SMART的中断及中断指令。中断就是中止当前正在运行的程序,去执行为立刻响应的信号而编写的中断服务程序,执行完毕后再返回原来中止的程序并继续执行。西门子S7-200 SMART CPU最多支持38个中断事件,其中8个为预留。为了便于识别,系统给每一个中断事件都分配了一个编号,又称中断事件号。
西门子S7-200 SMART中断及中断指令概述
|
机器学习/深度学习 资源调度
区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测
区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测
|
机器学习/深度学习 数据采集 存储
一文读懂机器学习分类全流程
🏆在本文中,作者将带你了解机器学习分类的全流程,从问题分析>数据预处理>分类器选择>模型构建>精度评价>模型发布为Web应用。从0带读者入门机器学习分类。
1443 0