不平衡分类| 学习笔记-阿里云开发者社区

不平衡分类| 学习笔记

2022-11-21 151

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习不平衡分类。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘（上）：不平衡分类】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/921/detail/15647

不平衡分类

在之前介绍的分类器方法中都是考虑类别分布平衡的状态，也就是各个类别的数量基本上是差不多的，但是在实际中往往会碰到一些不平衡的分类问题。

不平衡的分类例子

比如说像做艾滋病检测，或者是欺诈检测的时候，把艾滋病为1，或者是有欺诈行为的类别设置为1，那么这种1类别出现的概率它是非常低的。远远小于类别为零的这样的数据对象的个数。

再举一个图像识别中的例子，比如给一组图像，用来判断这个图片是否是关于汉堡的，在给定的训练集中，一共是有九张图片，但是只有两张图片是关于汉堡的。

图片49.png

处理不平衡分类策略

如果把普通的分类去运用到这样一种不平衡的训练集上去，分类效果是不能够被保证的，以为了处理这种不平衡的分类问题，有几种策略。

图片50.png

1.Oversampling

第一种策略叫做 Oversampling，它主要是对正式里进行采样，用于补充正式的数量。

2. Under-sampling

第二种策略就是和 Oversampling 刚好相反，

叫做 Under-sampling，就是对负事例进行采样，然后去掉这些负事例。从而达到正事例和负事例比较平衡。

3.Threshoud-moving

第三种方法叫做阈值的移动，就是调节阈值，使得为正的事例的数目会比较多，那在一般的分类问题中，假设判断一个类别为正和为负的概率，一般是如果概率高于0.5，认为它是正事例，如果低于0.5是负事，如果实力非常少，可以把阈值降低，比如为正的概率，如果达到0.3，就认为他是正事例。那么这就是第三种方法，就是通过设置阈值。

4.Ensemble techniques

第四种技术就是集成，可以把前面的几种策略把它用集成的方法把它组合在一起。

不平衡分类| 学习笔记

不平衡分类

阿里云开发者学堂

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

不平衡分类| 学习笔记

不平衡分类

阿里云开发者学堂

热门文章

最新文章

相关电子书