《从机器学习到深度学习》笔记(2)无监督学习

简介: 有监督学习用于解决分类问题的前提是必须有一个带标签数据的样本集,但获得数据标签的代价往往是非常昂贵的。同时,这些标签通常都是人工标注,标注错误的情况也时有发生。这样就促使了无监督学习策略的发展,简单的说它就是:对无标签数据进行推理的机器学习方法。

有监督学习用于解决分类问题的前提是必须有一个带标签数据的样本集,但获得数据标签的代价往往是非常昂贵的。同时,这些标签通常都是人工标注,标注错误的情况也时有发生。这样就促使了无监督学习策略的发展,简单的说它就是:
对无标签数据进行推理的机器学习方法。
1. 场景
由于无监督学习的前提是不需要前期的人类判断,所以它一般是作为某项学习任务的前置步骤,用于规约数据;在无监督学习之后,需要加入人类知识以使成果有实用价值。图1-10从人类知识加入的时间点比较了两种学习策略。
1_10

图1-10 有监督学习与无监督学习
一般来说人类理解由无监督学习规约后的数据比整理样本数据中的标签更容易些,所以总体上无监督学习需要更少的人工参与。
无监督学习的算法比较丰富,按整理数据的方式有两大分支:
 聚类(Clustering):是最主要的无监督学习方式,是指将已有的样本数据分成若干个子集。生成的模型也可用于为新样本划分类别。
 降维(Dimensionality Reduction):即以保持数据之间现有距离关系不变为目标,将高维数据转换为低维数据,。
此外还有一些小的算法族群比如协方差分析(Covariance Estimation)、边缘检测(Outlier Detection)等。
图1-11举例说明作为最重要无监督学习方式的聚类适用场景。它是一个银行客户的聚类示意图,其将已有的客户总体分成两个子集。在进行聚类训练后,新客户也可用已有的模型划分到相应子集。
1_11

图1-11 聚类场景举例
聚类只是提供子集划分方案,而划分的逻辑意义需要人类进行辨别。在图1-11中,从结果看算法将所有客户按存款额和贷款额的多少分为了两类。对于大多数银行来说,可能子集1对应的是普通用户,子集2对应的是重要客户。
2. 聚类算法
聚类算法仍然是当下一个不断发展领域,各种方法比较繁杂。本书主要学习目前比较成熟的几种聚类策略,它们是:
 距离切分方法(Partition Methods):是一种最基础的算法,根据特征之间的距离进行聚类划分。具体算法主要是指K-means和及其派生算法。
 密度方法(Density Methods):其通过定义每个子集的最小成员数量和成员之间距离实现划分。最典型的算法是DBSCAN,即Density-Based Spatial Clustering of Applications with Noise。
 模型方法(Model Methods):用概率模型(以高斯混合模型为典型,即Gaussian Mixture Model)和神经网络模型(SOM,Self Organizing Maps)为主要代表。其特点是不完全将样本认定为属于某子集,而是指出样本属于各子集的可能性的大小。
 层次方法(Hierarchical Methods):不像其他聚类将总体划分成彼此地位平等的多个子集,层次方法最终将数据集划分成有父子关系的树形结构。这样就可以在聚类的同时考察各子类之间的亲缘关系,比较典型的是birch模型。
3. 降维算法
如前所述,降维一般被用来压缩特征数量以便后续处理,其相对聚类来说略显抽象。本书介绍两类降维策略:
 线性降维:顾名思义用来处理线性问题。模型比较简单,包括常见的主成分分析(PCA,Principle Component Analysis)和线性判别分析(LDA,Linear Discriminant Analysis)
 流行学习(Manifold Learning):是近期学术界的热点,可以处理非线形降维。目前比较成熟的算法包括Isomap、局部线性嵌入(LLE,Locally Linear Embedding)等。
本书第4、5章分别详细讨论聚类和降维的主要算法原理与实践。

**从机器学习,到深度学习
从深度学习,到强化学习
从强化学习,到深度强化学习
从优化模型,到模型的迁移学习
一本书搞定!
**
d01b2e3c1893d577

相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
本文探讨了在深度学习和机器学习中针对非时间序列的回归任务的多种改进策略,包括数据预处理、数据集增强、特征选择、模型选择、模型正则化与泛化、优化器选择、学习率调整、超参数调优以及性能评估与模型解释,旨在提升模型的性能和可解释性。
47 1
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
|
19小时前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
22 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
25天前
|
机器学习/深度学习 人工智能 算法
探索AI的魔法:机器学习与深度学习的奥秘
【8月更文挑战第27天】在这篇文章中,我们将深入探讨人工智能的两个重要分支:机器学习和深度学习。我们将首先理解它们的基本概念,然后通过Python代码示例,展示如何应用这些技术解决实际问题。无论你是AI新手,还是有经验的开发者,这篇文章都将为你提供新的知识和启示。让我们一起开启这场AI的魔法之旅吧!
|
25天前
|
机器学习/深度学习 并行计算 PyTorch
PyTorch与CUDA:加速深度学习模型训练的最佳实践
【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。
57 1
|
10天前
|
机器学习/深度学习 算法
深度学习中的自编码器:探索无监督学习的秘密
在深度学习的浩瀚海洋中,自编码器犹如一座神秘的灯塔,指引着无监督学习的方向。本文将带你航行于自编码器的构造与原理之间,探索它们如何通过编码输入数据、重构输出来捕捉数据的内在特征。我们将一起见证自编码器在降维、去噪、生成模型等方面的应用奇迹,并思考其在深度学习未来中的角色与挑战。准备好了吗?让我们启航,揭开自编码器的神秘面纱。
|
12天前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能的未来:机器学习和深度学习的融合之旅
本文将带你进入人工智能的奇妙世界,一起探索机器学习和深度学习的融合如何引领我们走向更加智能化的未来。我们将从基础概念出发,逐步深入到技术细节和应用实例,揭示这一技术革新如何改变我们的生活和工作方式。通过深入浅出的解释和生动的例子,本文旨在为读者提供一次内容丰富、启发思考的技术之旅。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
25 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:从机器学习到深度学习
本文将探讨人工智能的发展历程,特别是机器学习和深度学习的兴起。我们将深入了解这些技术如何改变我们的生活,并讨论未来的发展趋势。
30 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
深度学习之量子计算加速的机器学习
深度学习的量子计算加速机器学习是一种新兴的跨领域研究方向,旨在利用量子计算的独特特性来加速和优化传统机器学习模型,特别是深度学习模型。量子计算具有在处理特定类型问题时指数级加速的潜力,结合深度学习可以带来性能和效率的显著提升
35 1