前言
虽然大型数据集可能得到更佳的挖掘结果,但未必能获得比小型数据集更好的挖掘结果
对于多维数据,一个主要的问题是在所有维度中搜寻所有挖掘方案之前,是否可以确定某方法在已归约数据集的挖掘和发现中国发挥得淋漓尽致。
一、大型数据集的维度
数据的描述以及特征的挑选,归约或转换可能是决定挖掘方案质量的最终更要问题。
预处理集的3个主要维度通常表示为平面文件即列,行和特征的值
因此数据归约的3个基本操作就是删除列,删除行和减少列中值的数量。这些操作的目的是试图删掉不必要的数据来保留原始数据的特征
在准备数据挖掘时候,要执行标准的数据归约操作,需要了解通过这些活动可以得到什么或者失去什么? 则需要全面比较需要分析下面的参数:
1) 计算时间—— 数据归约后的比较简单数据,是否可以减少数据挖掘所消耗的时间
2) 预测/描述精度
3) 数据挖掘模型的描述—— 简单的模型描述通常来自数据归约,这往往意味着模型能得到更好的理解。所导出的模型和其他结果的这种简易性依赖于对模型的描述。
理想情况下,使用维度归约既能减少时间又能提高精度,简化模型的描述。
数据归约推荐的特性描述如下:
可测性—— 应用已归约的数据集合可精确的确定近似结果的质量
可识别性——在应用数据挖掘程序之前,在数据归约算法运行期间,很容易确定近似结果的质量
单一性——算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
一致性——计算结果的质量与计算时间及输入数据质量有关
收益递减——方案在计算的早期能获得很大的改进,但是随着时间递减
可中断性——算法可以随时停止,并给出答案
优先权——算法可以暂停并以最小的开销重新开始