Clustering-Base and Classification -Base Approaches|学习笔记

简介: 快速学习 Clustering-Base and Classification -Base Approaches

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Clustering-Base and Classification -Base Approaches】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15657


Clustering-Base and Classification -Base Approaches


内容介绍:

一、基于聚类的异常检测方法

二、基于分类的异常检测算法


本课程开始数据仓库与数据挖掘的学习。在这一部分,会介绍基于聚类和基于分类的一种检测方法。


一、基于聚类的异常检测方法

首先来看一下基于聚类的异常检测方法。基于聚类的异常检测方法中,将数据进行聚类,得到若干和蔟。如果一个数据对象,她不属于任意蔟。或者是这个数据对象,它离比较大的蔟的距离比较远,甚至它属于一个比较稀疏的蔟,把这样的一些数据对象认为是异常点。

使用于聚类算法进行异常检测,有很多种方法,主要介绍 DBSCAN, k-means 算法两种方法。

1. DBSCAN 方法

首先,对于 DBSCAN 方法。基于 DBSCAN 异常检测方法比较简单。因为在基于DBSCAN 的聚类算法中,将数据对象划分为三类,一类是核心点,指的是蔟的中心的点,一类是边界点,指的是位于蔟边缘的点,还有一类点,把它称之为叫做异常点,也就是不属于任何一个蔟的点那么,用 DBSCAN 算法是直接可以识别异常数据的

2.k-means 算法

再来看一下 k-means 算法。使用 k-means 算法进行聚类的时候,会将所有的数据对象都会划分到特定的中去。针对于 k-means 算法,去可以设计每一个数据对象的异常评分。数据对象的异常评分,是可以用下图公式去计算。

图片1.png

其中第一个部分 dist(o,co) 指的是计算这个数据对象欧到它所在蔟中心的距离。avg_dist(co) 指的是这个数据集中个各蔟的中心距离的平均值,如果dist(o,co)/avg_dist(co) 的值比较大,就意味着这个数据对象,它可所在的中心的距离是非常大的,那么把这样的数据认为是异常点。


二、基于分类的异常检测算法

基于分类的异常检测算法,基于分类的异常检测算法主要是将异常检测问题把它转化成为一个分类问题,那么最直接的就是将数据集标记的异常数据设置为试力,而正常数据设置为正式例,对于这样的一个分类问题,那么它存在的缺点前面介绍过,就是会存在类别不均衡的问题,针对这样的一个问题,还可以使用这样的一个one-class model,也就是可以把所有的正式例去构建一个用于描述正式例的分类。

可以利用所有的正式例去构建一个描述正式力的模型,然后将数据对象和这个模型进行对比,如果数据对象不符合这个模型,就认为它是异常数据。

图片2.png

关于基于聚类的异常检测算法和基于分类的异常检测算法就介绍到这里。

 

相关文章
|
1月前
|
机器学习/深度学习 算法
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
31 0
|
1月前
|
TensorFlow API 算法框架/工具
【Tensorflow+keras】解决使用model.load_weights时报错 ‘str‘ object has no attribute ‘decode‘
python 3.6,Tensorflow 2.0,在使用Tensorflow 的keras API,加载权重模型时,报错’str’ object has no attribute ‘decode’
32 0
|
4月前
|
机器学习/深度学习 人工智能
【CatBoost报错解决】CatBoostError: Bad value for num feature[non default doc idx=0,feature idx=19]=
【CatBoost报错解决】CatBoostError: Bad value for num feature[non default doc idx=0,feature idx=19]=
|
API 数据格式
TensorFlow2._:model.summary() Output Shape为multiple解决方法
TensorFlow2._:model.summary() Output Shape为multiple解决方法
250 0
TensorFlow2._:model.summary() Output Shape为multiple解决方法
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
184 0
|
机器学习/深度学习 自然语言处理 数据可视化
M2E2: Cross-media Structured Common Space for Multimedia Event Extraction 论文解读
我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试
87 0
|
机器学习/深度学习 自然语言处理 算法
ACL 2022:Graph Pre-training for AMR Parsing and Generation
抽象语义表示(AMR)以图形结构突出文本的核心语义信息。最近,预训练语言模型(PLM)分别具有AMR解析和AMR到文本生成的高级任务。
141 0
|
人工智能 编解码 自动驾驶
YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7在5 FPS到160 FPS的范围内,在速度和精度方面都超过了所有已知的物体检测器,在GPU V100上以30 FPS或更高的速度在所有已知的实时物体检测器中具有最高的精度56.8% AP。
438 0
|
机器学习/深度学习 数据挖掘
【多标签文本分类】Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution
【多标签文本分类】Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution
120 0
【多标签文本分类】Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution
|
机器学习/深度学习 数据挖掘
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
196 0
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization