ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决

简介: ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。

实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。

对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究,也就是说我们已知了退化类型和退化强度。虽然这种设计在仿真数据上有不错的表现,但在现实场景下的应用仍然存在很多问题:

经典的仿真退化很难模拟复杂的现实世界退化,训练出的网络在现实世界数据上重建效果较差。同时,这种设定下训练得到的可调节交互机制在现实世界数据上的调节效果也会大打折扣。

虽然高阶退化可以用来仿真现实世界的低清图像,但这种仿真退化下的退化强度是未知的,很难通过有监督的训练来构建这种可调节交互机制。


最近无监督的对比学习在底层视觉领域受到越来越多的关注。这类方法方便了复杂降质特征的提取,这给来自腾讯 ARC Lab 的研究者们提供了一个思路: 是否可以利用对比的方式无监督的构建现实场景下图像超分辨率的可调节交互机制?



篇工作的核心利用度量学习在高阶仿真退化中,通过对比不同样本退化强度大小的方式无监督地构建退化强度的度量空间。度量空间中的退化得分不代表真实的退化强度,但可以反映退化强度的相对大小。本篇文章提出的方法(MM-RealSR)通过度量空间中的退化得分来构建现实场景下图像超分辨率的可调节交互机制。

本文提出了在复杂的退化空间中,划分两个度量空间,分别是广义 noise 和广义 blur。因为这两种退化因素是真实场景下最为常见的也是人们最关注,和最需要调节的。MM-RealSR 在现实场景下可以达到如下图 1 的调节效果。相比于近几年其他可调节复原方法, MM-RealSR 不仅实现了现实场景下的可调节图像超分辨率, 整体重建结果也更加自然。

图 1. MM-RealSR 在真实场景下的可调节超分辨率效果

现有可调节复原方案的回顾与对比如图 2 所示,首先来看,现有方案针对的图像退化设定是低阶的,需要已知退化类型和退化强度的。本文提出的方案面向现实场景,退化过程是高阶的,未知退化类型和退化强度的。

图 2. 本文提出方案与现有方法的对比MM-RealSR 结构本文关注真实场景中最常见的两种退化因子,广义 noise 和广义 blur,并对这两种退化因子做了一般化的定义如图 3 所示。其中 noise 包含高斯噪声、泊松噪声,和 JPEG 压缩等;blur 包含各向同性、各向异性,以及随机尺寸变换等模糊因素。

图 3. 退化因子的定义针对这两种退化因子,本文提出的无监督退化估计模块如图 4 所示。通过度量学习,该模块将难以量化的现实世界退化强度映射到两个独立的度量空间之中。通过不同退化强度之间的大小对比,构建度量空间中的距离关系。本文额外通过一个锚点损失函数限制度量空间的分布。虽然度量空间中的退化得分无法反映真实的退化强度,但可以体现退化强度的相对大小关系。本文将无监督的退化估计模块和图像超分辨率模块进行联合训练,来构建退化得分和重建结果之间的可调节关系。

图 4.  基于度量学习的无监督退化估计模块本文提出的总模型结构如图 5 所示。由退化估计模块、状态变量生成模块,以及重建模块构成。其中状态变量生成模块将预测到的退化得分转化成一组状态变量,并将这组状态变量以仿射变换的方式注入图像重建模块当中去,起到调节重建结果的作用。实验证明,本文提出的方法兼顾优越的重建效果和可调节能力。

图 5.  基于度量学习的可调节现实世界图像超分辨率网络损失函数本文通过 L1,Perceptual 和 GAN 复原损失函数来保证图像重建质量,通过度量损失函数(margin ranking losses)来训练噪声度量空间和模糊度量空间。度量损失函数的表达式:

为了控制度量空间中评分的分布,本文还提出了一个锚点损失函数:


和现有的现实世界图像超分辨作 Real-ESRGAN 类似,本文采用高阶退化的仿真数据作为训练数据。更多的细节请参见论文。

实验结果研究者们在现实世界的低质量数据上做了重建效果的测试:

可以看到,本文提出的方法在具备交互能力的基础上,超分辨率的性能也达到了 SOTA 的水平,主观结果也更加美观自然。研究者们在现实世界数据上对无监督退化评分器的评分能力进行了测试:


可以看到,无监督退化评分器可以较好地评估现实场景下的退化强度。研究者们在现实世界数据上对网络的交互重建能力进行了测试:


可以看到,对比现有方法,MM-RealSR 在交互重建能力上有更好的表现。它的交互范围更大,重建效果更好。小结本文提出了在真实场景下,可调节的维度主要是广义 noise 和广义 blur 两方面。通过无监督的度量学习,首次实现了真实场景下可调节的图像超分辨率。提出的方法在调节能力和超分辨率性能上都取得了优异的表现。

相关文章
|
运维 监控 Java
研发规范第十三讲:阿里 - 如何进行项目稳定性建设
研发规范第十三讲:阿里 - 如何进行项目稳定性建设
951 1
|
Linux
中断系列第二篇:中断的使用场景?
中断系列第二篇:中断的使用场景?
449 0
|
存储 算法 网络协议
计算机网络-网络互联
计算机网络-网络互联
377 0
|
消息中间件 运维 Java
支付系统的心脏:简洁而精妙的状态机设计与核心代码实现
本篇主要讲清楚什么是状态机,简洁的状态机对支付系统的重要性,状态机设计常见误区,以及如何设计出简洁而精妙的状态机,核心的状态机代码实现等。 我前段时间面试一个工作过4年的同学竟然没有听过状态机。假如你没有听过状态机,或者你听过但没有写过,或者你是使用if else 或switch case来写状态机的代码实现,建议花点时间看看,一定会有不一样的收获。
|
10月前
|
存储 数据挖掘 虚拟化
vsan数据恢复—vsan缓存盘故障导致虚拟机磁盘文件丢失的数据恢复案例
VMware vsan架构采用2+1模式。每台设备只有一个磁盘组(7+1),缓存盘的大小为240GB,容量盘的大小为1.2TB。 由于其中一台主机(0号组设备)的缓存盘出现故障,导致VMware虚拟化环境中搭建的2台虚拟机的磁盘文件(vmdk)丢失。
|
10月前
|
机器学习/深度学习 人工智能 算法
DeepSeek:掀翻互联网底层的“东方神秘力量” ——当AI大模型成为网络世界的“基建狂魔”
DeepSeek正重构网络底层逻辑,从“哑管道”到“认知神经”,赋予网络思考能力。它通过意图驱动和认知架构,优化带宽资源,提升效率。技术上,MOE+MLA架构与FP8精度训练大幅降低成本,性能超越传统模型。产业链方面,通信巨头转型为“AI驯兽师”,推出智能预测、定制化网络等服务。然而,AI基建也面临安全挑战,如僵尸网络攻击和隐私问题。展望6G,AGI将成新“网络原住民”,带来更智能的服务。这场变革不仅提升了连接效率,还创造了更多价值。
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
《揭秘AI语音助手:从“听”到“说”的智能之旅》
在数字化时代,AI语音助手如Siri、Alexa、小爱同学等成为生活中的得力伙伴。它们通过自动语音识别(ASR)将语音转换为文本,利用自然语言处理(NLP)理解语义并生成回应,再通过文本到语音转换(TTS)输出自然语音。ASR捕捉、预处理和分析语音信号;NLP解析文本、理解意图;TTS合成流畅语音。这三项技术协同工作,使语音助手能听懂、理解并回应用户,为人机交互带来便利与创新。
1766 1
|
机器学习/深度学习 存储 算法
【类脑计算】突触可塑性模型之Hebbian学习规则和STDP
本文介绍了突触可塑性中的Hebbian学习规则和STDP(Spike-Timing Dependent Plasticity),两种基于神经元活动调节突触强度的机制,其中Hebbian规则强调同时活动的神经元间的连接增强,而STDP则考虑了脉冲时间差异对突触强度的调节作用。
1158 2
|
SQL 关系型数据库 MySQL
【MySQL】DQL-案例练习-DQL基本介绍&语法&执行顺序(代码演示)
【MySQL】DQL-案例练习-DQL基本介绍&语法&执行顺序(代码演示)
|
Java 应用服务中间件 API
从零手写实现 tomcat-11-filter 过滤器
该文是关于手写实现 Apache Tomcat 的系列教程简介。作者希望通过亲自实现一个简化版来深入理解 Tomcat 的工作原理。系列教程包括了从解析 `web.xml`、基础的 Socket 实现到 Filter、Servlet 支持、线程池以及与 SpringBoot 集成等内容。文中以 Filter 为例,解释了其在网络请求中的作用,如检查和修改请求与响应,并给出了简单的 Filter 实现代码。最后提到了在 MiniCat(作者的简易 Tomcat 实现)中如何处理 Filter,并提供了项目的开源地址。