大数据之数据挖掘的玉女心经

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:   数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。  一、数据类型。  数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。

  数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。

  一、数据类型。

  数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。

  1、属性与度量

  属性是对象的性质或特性,因对象而异,或随时间而变化。

  测量标度是将数值或符号与对象的属性相关联的规则。

  属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。

  2、数据集的类型

  数据集有三个重要的特性:维度、稀疏性、分辨率。

  数据集有以下的类型:

  *记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。

  *基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。

  *有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。

  二、数据质量

  1。测量和数据收集问题

  测量误差和数据收集错误:

  噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。

  精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值与被测量的已知值之间的差度量。

  离群点:是某种意义上具有不同于数据集中其它大部分数据对象的特征的数据对象,或者相对于该属性的典型值不寻常的属性值,也称异常对象。

  遗漏值:是对一个对象中,其中一个或几个属性的信息未收集。有许多处理遗漏值的策略,如删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值。

  重复数据:数据集中可能包含二手手游交易重复或者几乎重复的数据对象。

  2。关于应用的问题

  数据在应用时除了考虑质量问题之外,同时也要考虑如下几个性质:时效性、相关性。

  三、数据预处理

  1、聚集

  聚集是将两个或多个对象合并成单个对象。

  2、抽样

  抽样是一种选择数据子集进行分析的常用方法,主要基于这样的思想:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。

  抽样有如下几个方法:无放回抽样、有放回抽样、分层抽样、渐进抽样。

  3、维归约

  维归约不同于聚集,聚集是合并对象,维归约是减少属性的个数,即降低维度。维归约通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。

  维灾难:是指这样一种现象,随着数据维度的增加,许多数据分析变得非常困难。

  用于维归约的线性代数技术:主成分分析(PCA)、奇异值分解(SVD)。

  4、特征子集选择

  降低维度的另一种方法是仅使用特征的一个子集,用这个特征子集代替原来的属性集合,更能有效的捕获数据集中的重要信息。有三种标准的特征选择方法:嵌入、过滤、包装。

  特征加权:特征越大(属性),所赋予的权值越大,而不太重要的特征赋予较小的权值。

  5、离散化和二元化

  在数据挖掘中,经常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。

  6、变量变换

  变量变换是指用于变量的所有值的变换,也就是属性变换。有两种重要的变量变换类型:简单函数、规范化或标准化。

  四、相似性和相异性度量

  1、相似性和相异性的高层定义是术语邻近性。而相似度是两个对像相似程度的数值度量。相异度(经常也称距离)是两个对象差异程度的数值度量。

  2、数据对象之间的相异度

  比较经典的是欧几里德距离(欧式距离)。

  3、数据对象之间的相似性

  二元数据的相似性度量也称相似系数。一般采用如下方法度量:简单匹配系数:SMC=值匹配个数/属性个数。Jaccard系数:J=匹配的属性的个数/不涉及0-0匹配的属性的个数。

  余弦相似度:比较常见用于比较两个向量。在Web挖掘中经常用于比较两个网面的相似性。

  广义Jaccard系数(Tanimoto系数):是对Jaccard系数的扩展,可以用于文档数据。

  4、邻近度计算问题

  组合异种属性的相似度:可以分别计算出每个属性之间的相似度,然后使用一种导致0和1之间相似度的方法组合这些相似度。如果某些属性是非对称属性,则可以这样处理:如果两个对象在非对象属性上的值都是0,则在计算机相似度是可以忽略他们。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
499 0
|
3月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
93 10
|
3月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
3月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
52 1
|
3月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
86 0
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
126 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
10天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
47 1
|
4天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
13 3

热门文章

最新文章

下一篇
无影云桌面