开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):不平衡分类】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/15647
不平衡分类
在之前介绍的分类器方法中都是考虑类别分布平衡的状态,也就是各个类别的数量基本上是差不多的,但是在实际中往往会碰到一些不平衡的分类问题。
不平衡的分类例子
比如说像做艾滋病检测,或者是欺诈检测的时候,把艾滋病为1,或者是有欺诈行为的类别设置为1,那么这种1类别出现的概率它是非常低的。远远小于类别为零的这样的数据对象的个数。
再举一个图像识别中的例子,比如给一组图像,用来判断这个图片是否是关于汉堡的,在给定的训练集中,一共是有九张图片,但是只有两张图片是关于汉堡的。
处理不平衡分类策略
如果把普通的分类去运用到这样一种不平衡的训练集上去,分类效果是不能够被保证的,以为了处理这种不平衡的分类问题,有几种策略。
1.Oversampling
第一种策略叫做 Oversampling,它主要是对正式里进行采样,用于补充正式的数量。
2. Under-sampling
第二种策略就是和 Oversampling 刚好相反,
叫做 Under-sampling,就是对负事例进行采样,然后去掉这些负事例。从而达到正事例和负事例比较平衡。
3.Threshoud-moving
第三种方法叫做阈值的移动,就是调节阈值,使得为正的事例的数目会比较多,那在一般的分类问题中,假设判断一个类别为正和为负的概率,一般是如果概率高于0.5,认为它是正事例,如果低于0.5是负事,如果实力非常少,可以把阈值降低,比如为正的概率,如果达到0.3,就认为他是正事例。那么这就是第三种方法,就是通过设置阈值。
4.Ensemble techniques
第四种技术就是集成,可以把前面的几种策略把它用集成的方法把它组合在一起。

