PyTorch深度学习实战 |语义分割基础知识

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 《PyTorch语义分割实战解析》摘要:本文深入探讨语义分割中的标签处理技术,对比P模式与L模式的本质区别。P模式通过调色板实现人机双重视觉效果,底层存储类别索引(0,1,2等),表面呈现彩色可视化效果。针对边缘模糊问题,提出使用255作为忽略标签(IgnoreLabel)的解决方案。文章系统梳理7大评价指标:从基础的像素准确率(PA)到综合性的mIoU和mF1,特别强调mIoU作为核心指标的重要性,其平衡各类别的特性使其成为模型性能评估的黄金标准。通过技术原理与实战经验的结合,为深度学习从业者提供了语义分

 mask模式

电脑眼中的标签:一张只有编号的“二维点阵图”

      我们要从“电脑看到的”“人类看到的”两个视角来解释。 电脑眼中的标签:一张只有编号的“二

维点阵图”对于 PyTorch 或者深度学习模型来说,语义分割的标签绝对不是一张彩色的图,而是一

二维的整数矩阵(单通道)尺寸一致: 如果原图是 512*512,标签也是 512*512 的矩阵。没

有颜色,只有类别编号: 矩阵里的每一个数值,都是一个 0, 1, 2... 这样的离散整数。0 代表背景

(Background)1 代表车子 (Car) 2 代表行人 (Person)。

为什么需要 P 模式?(因为人类的肉眼是瞎的)

既然电脑只需要 0, 1, 2,那我们直接把这个矩阵存成单通道图片(L 模式的灰度图)不就好了吗?

如果你把存满 0, 1, 2 的矩阵直接当成灰度图打开,在人类看来,0 是纯黑,1 也是极度接近黑色的

黑,2 还是黑。整张标签图在人眼看来就是一张纯黑的图! 数据标注员根本无法检查自己标得对不

对。P 模式(调色板模式)就是为了拯救人类视觉而诞生的“魔法滤镜”:

它的底层数据依然是 0, 1, 2。

但它的文件头里偷偷塞了一本“密码本(调色板)”:

遇到 0,在屏幕上显示黑色。

遇到 1,在屏幕上显示大红色。

遇到 2,在屏幕上显示蓝色。

结果: 电脑用 PIL 读取时,读到的依然是 0, 1, 2,完美满足训练需求;而人类双击打开图片时,

看到的是五颜六色的色块,完美满足检查需求。

image.gif

模式 通道数 每个像素的含义 适用于 常用读取方式 备注
P (Palette) 1通道(索引) 类别ID ➔ 查调色板得到颜色 语义分割标注(类别索引型) PIL.Image.open() 像素值是类别索引,调色板映射成RGB
L (Luminance) 1通道(灰度值) 0~255 灰度值 灰度图、深度图、标签图 PIL.Image.open().convert('L') or cv2.imread(..., 0) 直接表示亮度或类别ID,无调色板
RGB 3通道 真实颜色(R,G,B各0~255) 彩色图片、可视化图像 cv2.imread() / PIL.Image.open().convert('RGB') 每个像素是直接的颜色值

image.gif

   在 L 模式下,图像大部分是黑色的(因为类别索引如 0、1、2 对应的灰度值极低),但边缘处

之所以是亮白色的,是因为这些边缘像素的值被设定为了 255。

在人工标注数据时,不同物体之间的边界(边缘)是非常模糊且难以绝对精确定义的。比如猫的毛

发和椅子的交界处,到底算猫还是算椅子?如果强制标为猫,或者强制标为椅子,模型在训练时碰

到这种模棱两可的像素就会很“痛苦”,导致 Loss 剧烈震荡。为了解决这个问题,大神们发明了

Ignore Label(忽略标签) 机制。他们把物体交界处的一圈像素(通常是 1~2 个像素宽的白边)单

独挑出来,赋予一个特殊的类别 ID,最常用的就是 255。在代码计算 Loss 时,我们会明确告诉

CrossEntropyLoss 忽略掉值为 255 的像素点(在 PyTorch 中通过 ignore_index=255 实现),

即:“这部分边缘太模糊了,你预测错了我也不扣你分。”

为什么 255 在 L 模式下是白色的?

这就是图像灰度值的物理意义了。

我们知道,L 模式本质上是一张 8 位的单通道灰度图,取值范围是 0 ~ 255。

0 代表纯黑(通常是背景)。

1, 2, 3... 代表飞机、自行车、鸟等类别(这些数字对应的灰度极度接近 0,所以肉眼看依然是纯

黑)。255 代表最高亮度,也就是纯白!


评价指标

像素准确率 (PA, Pixel Accuracy):最直白,但也最容易被“骗”

理论解读:

PA 是最符合人类直觉的指标。假设一张图片有 100 个像素,模型预测对了 90 个,那 PA 就是

90%。它只关心“总答对题数”,不关心“是哪门科目的题”。


类别像素准确率 (CPA, Class Pixel Accuracy)

在所有原本属于类别 i 的像素中,模型成功找出了多少?

image.gif

类别平均像素准确率 (MPA, Mean Pixel Accuracy):宏观视角,人人平等

理论解读:

    算出了每个类别的 CPA 之后,我们需要一个单一的数值来评估模型的整体能力。MPA 的做法

非常霸气:不管你是占全图 99% 的背景,还是只占 1%的肿瘤,在 MPA 面前,众生平等。

image.gif

交并比(Intersection over Union,IoU)

    IoU的值越高,说明预测结果和真实标签的重叠度越高,分割效果也越好。如果IoU等于1,那就

表示预测区域和真实区域完全重合;如果IoU等于0,那就说明两者完全没有重叠。一般来说,IoU

能达到0.5以上,就被认为是比较好的分割结果了。

平均交并比(Mean Intersection over Union,mIoU)

      mIoU就是计算所有类别IoU的平均值,这个指标能综合评估模型在各个类别上的分割精度,可

以说是语义分割任务中最重要的指标了。它能平衡不同类别之间的差异,更全面地反映模型的性

能,所以在比较不同模型的时候,mIoU是一个比较可靠的指标。mIoU的取值范围在0到1之间,值

越高代表模型在各个类别上的平均分割效果越好。一般来说,mIoU越高的模型,它的分割性能也

越好。

频率加权交并比(Frequency Weighted Intersection over Union,FWIoU)

FWIoU 是 PA(像素准确率)和 mIoU 之间的一个折中。它既不像 PA 那样彻底无视小类别,也不

像 mIoU 那样给小类别过高的权重。它认为:谁在真实世界里占的面积大,谁的话语权就重。

类别F1分数(Class F1 Score)

   F1 分数结合了类别预测的精确率和召回率,对每个类别单独计算,能更细致地反映模型在不同

类别上的分类性能。在一些既要求分类准确又要求不遗漏任何信息的场景中,F1 分数能提供更全

面的评估信息。F1 分数的取值在 0 到 1 之间,值越高表示该类别上模型的分类性能越好。

平均F1分数(Mean F1 Score,mF1)

mF1就是把所有类别的F1分数加起来求平均,就能综合评估模型在各个类别上的整体表现,平衡

了不同类别之间的差异,不会只盯着那些主要的类别而忽略了其他的类别,这样能更全面地反映模

型的分类能力。mF1的取值范围在0到1之间,值越高代表模型在各个类别上的平均分类性能越好。

目录
相关文章
|
16天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
6021 30
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
573 135
|
11天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1190 3
|
8天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
992 1
|
18天前
|
人工智能 自然语言处理 供应链
|
9天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
817 5
|
9天前
|
运维
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
1442 0