AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升

简介: AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升
论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。


图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的计算机视觉任务,该任务有助于促进场景理解和自动驾驶领域的发展。现有的技术大多采用基于分类的类激活图(CAM)作为初始的伪标签,这些伪标签往往集中在有判别性的图像区域,缺乏针对于分割任务的定制化特征。

为了解决上述问题,字节跳动 - 智能创作团队提出了一种即插即用的激活值调制和重校准(Activation Modulation and Recalibration 简称 AMR)模块来生成面向分割任务的 CAM,大量的实验表明,AMR 不仅在 PASCAL VOC 2012 数据集上获得最先进的性能。实验表明,AMR 是即插即用的,可以作为其他先进方法的子模块来提高性能。论文已入选机器学习顶级论文 AAAI2022,相关代码即将开源。



论文链接:https://arxiv.org/abs/2112.08996

GitHub 链接:https://github.com/jieqin-ai/AMR


引言

论文提出了一种新颖的激活调制和重校准(AMR)方案,该方案利用聚光灯分支和补偿分支获得加权 CAM,从而提供重校准的监督信号。注意力调制模块(AMM)按照通道 - 空间的顺序重新学习特征重要性的分布,这有助于显式地建模通道相关性和空间编码,以自适应地调制面向分割任务的激活响应。此外,研究者还针对双分支引入了一种交叉伪监督机制,它可以被视为一种语义相似的正则化机制来相互细化两个分支。实验结果表明,该方法可以通过学习大量粗粒度的标注获得良好的分割结果,这对实际应用非常有益。


方法


1、激活调制和重新校准方案 AMR

AMR 是由一个聚光灯分支和一个补偿分支组成的互补的双分支网络结构。具体来说,聚光灯分支用于生成基础的判别性强区域的 CAM,补偿分支用于生成面向分割任务的 CAM,为聚光灯的 CAM 提供互补的监督信号。补偿分支能够挖掘重要却容易被聚光灯分支忽视的区域,生成的补偿 CAM 通过重新校准聚光灯 CAM 来生成最终的加权 CAM:


2、注意力调制模块 AMM

论文提出了注意调制模块(AMM)从通道 - 空间顺序的角度重新排序特征重要性的分布,这有助于显式地建模通道间的相互依赖性和空间编码,以自适应地调节面向分割的激活响应值。AMM 包括通道注意调制和空间注意调制。研究者首先将输入到通道 AMM,通过平均池化和卷积层显式地建模通道的相互依赖性。为了进一步在空间维度上建模内部空间的关系,研究者还引入了一个空间 AMM 来级联通道 AMM。研究者利用高斯调制函数来增强次要特征并抑制最敏感和最不敏感的特征,该函数强调通过次重要的区域来直接提取容易忽略的区域,这对于分割任务至关重要。



3、交叉伪监督损失 CPS

为了充分利用其他分支提供的互补 CAM,研究者在聚光灯 CAM 和补偿 CAM 之间增加一个交叉伪监督损失函数,起到语义相似性正则的作用:


交叉伪监督损失不仅正则化了补偿分支,还将判别性区域和容易忽略的区域彼此拉近。因此可以获得两个互补区域来重新校准初始 CAM。综上所述,AMR 采用最终下述损失函数进行优化:


实验

在 PASCAL VOC2012 数据集上,一方面,AMR 超过了当前图像级弱监督方法,取得了最佳的分割性能。另一方面,AMR 甚至比一些具有更细粒度监督(如显著性监督)的算法获得更好的效果。


可视化结果如下图所示,从结果可以看出两个互补的分支能够关注到不同的响应区域,最终的加权结果能挖掘出更多属于目标对象的区域,从而获得更好的分割性能。

相关文章
|
4月前
|
传感器 机器学习/深度学习 监控
基于STM32的人体健康监测系统设计与实现(温度、心率、老人摔倒检测)【开源免费】
本文介绍了一个基于 STM32 微控制器 的健康监测系统,涵盖了 温度采集、心率监测、跌倒检测 等核心功能,并通过蓝牙实现数据传输与报警提醒。该系统在家庭养老、运动监控、医疗健康等场景具有广阔的应用前景。未来可以结合 AI+物联网 技术,进一步提升智能化和实用性。
875 12
|
传感器 监控 JavaScript
千套单片机\stm32毕设课设题目及资料案列-干货分享
为帮助电子工程领域的学习者顺利毕业或掌握更多专业知识,我们精心整理了一系列单片机和STM32相关的题目及资料案例。这些资源覆盖了从毕业设计到课程设计的各个方面,包括但不限于智能小车、温度控制系统、无线通信、智能家居等多个领域。每项设计都配有详细的原理图、仿真图以及完整的文档资料,旨在帮助学生深入理解理论知识的同时,提高实际动手操作能力。无论是初学者还是有一定基础的学生,都能从中找到适合自己的项目进行实践探索。
3400 8
|
缓存 移动开发 JavaScript
《vue2进阶篇:路由》第10章:vue-router,包括基础路由、嵌套路由、路由的query参数和params参数、命名路由、router-link的replace属性、编程式路由、缓存路由组件
《vue2进阶篇:路由》第10章:vue-router,包括基础路由、嵌套路由、路由的query参数和params参数、命名路由、router-link的replace属性、编程式路由、缓存路由组件
668 2
|
机器学习/深度学习 存储 自然语言处理
自然语言处理中的情感分析技术:深入解析与应用前景
【8月更文挑战第4天】情感分析技术作为自然语言处理领域的重要分支,具有广泛的应用前景和重要的研究价值。通过不断的技术创新和应用实践,我们可以期待情感分析在未来发挥更大的作用,为我们的生活和工作带来更多便利和效益。
1052 10
|
负载均衡 Cloud Native 容灾
阿里云负载均衡SLB价格_ALB、NLB和CLB区别_负载均衡详细介绍
阿里云负载均衡SLB提供ALB、NLB和CLB三种类型,分别适用于7层和4层的不同场景。ALB与NLB仅支持按量付费,而CLB则额外提供包年包月选项。ALB强调7层应用处理与高级路由,NLB聚焦4层的大流量处理与SSL卸载。两者均支持自动弹性伸缩,确保高可用性和性能。CLB作为传统负载均衡,适用于特定需求。每种类型依据实例规格与使用量收费,其中公网实例还需支付网络费用。通过这些服务,用户可以实现流量分发、故障转移及提升应用系统的稳定性和扩展性。
|
网络协议 关系型数据库 Linux
Linux 安装openGauss数据库 并 实现远程连接
Linux 安装openGauss数据库 并 实现远程连接
1210 0
|
机器学习/深度学习 数据采集 算法
Python基础算法解析:逻辑回归
Python基础算法解析:逻辑回归【2月更文挑战第20天】
418 1
Python基础算法解析:逻辑回归
|
SQL 缓存 数据库
大型网站优化指南:打造流畅的在线体验
大型网站优化指南:打造流畅的在线体验
319 0
|
Python
Pycharm为Python项目配置环境不生效,解决办法
在PyCharm中,项目依赖配置更改后未生效。解决步骤包括:1) 查找`C:\Users\username\AppData\Roaming\JetBrains\PyCharm2022.2\options\jdk.table.xml`,2) 删除`<jdk></jdk>`标签内的旧配置内容,然后重启PyCharm以应用新目录。
1494 0
Pycharm为Python项目配置环境不生效,解决办法
|
存储 API 数据安全/隐私保护
邮箱收不到验证码邮件是什么原因
在互联网应用中,未收到验证码邮件常令人困扰。原因包括:邮件误标为垃圾、邮箱设置不当、发件服务器故障、邮箱地址输入错误,及ISP拦截。解决策略有检查垃圾邮件、清理邮箱、修正设置、确认邮箱地址无误、联系服务提供商与ISP,或尝试其他邮箱服务。使用AOKSend等可靠邮件服务可提升送达率,其优势在于高送达率、实时监测与易集成性,确保验证码邮件及时准确到达,改善用户体验。