数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。
一、数据类型。
数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。
1、属性与度量
属性是对象的性质或特性,因对象而异,或随时间而变化。
测量标度是将数值或符号与对象的属性相关联的规则。
属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。
2、数据集的类型
数据集有三个重要的特性:维度、稀疏性、分辨率。
数据集有以下的类型:
*记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。
*基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。
*有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。
二、数据质量
1。测量和数据收集问题
测量误差和数据收集错误:
噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。
精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值与被测量的已知值之间的差度量。
离群点:是某种意义上具有不同于数据集中其它大部分数据对象的特征的数据对象,或者相对于该属性的典型值不寻常的属性值,也称异常对象。
遗漏值:是对一个对象中,其中一个或几个属性的信息未收集。有许多处理遗漏值的策略,如删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值。
重复数据:数据集中可能包含二手手游交易重复或者几乎重复的数据对象。
2。关于应用的问题
数据在应用时除了考虑质量问题之外,同时也要考虑如下几个性质:时效性、相关性。
三、数据预处理
1、聚集
聚集是将两个或多个对象合并成单个对象。
2、抽样
抽样是一种选择数据子集进行分析的常用方法,主要基于这样的思想:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。
抽样有如下几个方法:无放回抽样、有放回抽样、分层抽样、渐进抽样。
3、维归约
维归约不同于聚集,聚集是合并对象,维归约是减少属性的个数,即降低维度。维归约通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。
维灾难:是指这样一种现象,随着数据维度的增加,许多数据分析变得非常困难。
用于维归约的线性代数技术:主成分分析(PCA)、奇异值分解(SVD)。
4、特征子集选择
降低维度的另一种方法是仅使用特征的一个子集,用这个特征子集代替原来的属性集合,更能有效的捕获数据集中的重要信息。有三种标准的特征选择方法:嵌入、过滤、包装。
特征加权:特征越大(属性),所赋予的权值越大,而不太重要的特征赋予较小的权值。
5、离散化和二元化
在数据挖掘中,经常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。
6、变量变换
变量变换是指用于变量的所有值的变换,也就是属性变换。有两种重要的变量变换类型:简单函数、规范化或标准化。
四、相似性和相异性度量
1、相似性和相异性的高层定义是术语邻近性。而相似度是两个对像相似程度的数值度量。相异度(经常也称距离)是两个对象差异程度的数值度量。
2、数据对象之间的相异度
比较经典的是欧几里德距离(欧式距离)。
3、数据对象之间的相似性
二元数据的相似性度量也称相似系数。一般采用如下方法度量:简单匹配系数:SMC=值匹配个数/属性个数。Jaccard系数:J=匹配的属性的个数/不涉及0-0匹配的属性的个数。
余弦相似度:比较常见用于比较两个向量。在Web挖掘中经常用于比较两个网面的相似性。
广义Jaccard系数(Tanimoto系数):是对Jaccard系数的扩展,可以用于文档数据。
4、邻近度计算问题
组合异种属性的相似度:可以分别计算出每个属性之间的相似度,然后使用一种导致0和1之间相似度的方法组合这些相似度。如果某些属性是非对称属性,则可以这样处理:如果两个对象在非对象属性上的值都是0,则在计算机相似度是可以忽略他们。