不平衡分类| 学习笔记

简介: 快速学习不平衡分类。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):不平衡分类】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15647


不平衡分类

 

在之前介绍的分类器方法中都是考虑类别分布平衡的状态,也就是各个类别的数量基本上是差不多的,但是在实际中往往会碰到一些不平衡的分类问题。

不平衡的分类例子

比如说像做艾滋病检测,或者是欺诈检测的时候,把艾滋病为1,或者是有欺诈行为的类别设置为1,那么这种1类别出现的概率它是非常低的。远远小于类别为零的这样的数据对象的个数。

再举一个图像识别中的例子,比如给一组图像,用来判断这个图片是否是关于汉堡的,在给定的训练集中,一共是有九张图片,但是只有两张图片是关于汉堡的。

图片49.png

处理不平衡分类策略

如果把普通的分类去运用到这样一种不平衡的训练集上去,分类效果是不能够被保证的,以为了处理这种不平衡的分类问题,有几种策略。

图片50.png

1.Oversampling

第一种策略叫做 Oversampling,它主要是对正式里进行采样,用于补充正式的数量。

2. Under-sampling

第二种策略就是和 Oversampling 刚好相反,

叫做 Under-sampling,就是对负事例进行采样,然后去掉这些负事例。从而达到正事例和负事例比较平衡。

3.Threshoud-moving

第三种方法叫做阈值的移动,就是调节阈值,使得为正的事例的数目会比较多,那在一般的分类问题中,假设判断一个类别为正和为负的概率,一般是如果概率高于0.5,认为它是正事例,如果低于0.5是负事,如果实力非常少,可以把阈值降低,比如为正的概率,如果达到0.3,就认为他是正事例。那么这就是第三种方法,就是通过设置阈值。

4.Ensemble techniques

第四种技术就是集成,可以把前面的几种策略把它用集成的方法把它组合在一起。

相关文章
|
2天前
|
数据采集 人工智能 安全
|
11天前
|
云安全 监控 安全
|
3天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1019 151
|
3天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1713 9
|
8天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
656 152
|
10天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
620 12
|
10天前
|
人工智能 自然语言处理 API
Next AI Draw.io:当AI遇见Draw.io图表绘制
Next AI Draw.io 是一款融合AI与图表绘制的开源工具,基于Next.js实现,支持自然语言生成架构图、流程图等专业图表。集成多款主流大模型,提供智能绘图、图像识别优化、版本管理等功能,部署简单,安全可控,助力技术文档与系统设计高效创作。
692 151