带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)

带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5) https://developer.aliyun.com/article/1243535?groupCode=taobaotech



如前所述,重建模块包含55个残差模块,如此大规模的网络是比较难以训练的,因此,我们采用渐进式训练[14,28]策略训练第一阶段网络。具体地,分6次对模型进行训练,每次训练分别使用其前5、15、25、35、45和55个残差

模块进行图像重建。用R1、R2、...R6表示第1~5、6~15、... 46-55组残差模块,E和P表示特征提取和特征传播模块,S和R表示第一阶段网络最后的PixelShuffle层和全局残差连接。给定输入帧Iin可通过如下渐进式训练过程得

到最终的增强帧:


image.png


对于第一次训练,使用BasicVSR++开源模型初始化E、P、S和R的权重,对于后续的第 次训练,加载第k-1次训练收敛的模型E、P、S、R以及 模块的权重进行初始化。需要注意的是,图3所示特征传播模块包含时序信息,为了简洁起见,在上述公式中省略了该信息。


第二阶段网络与迁移学习


尽管BasicVSR++单模型拥有业界领先的视频恢复能力,但其对严重压缩伪影区域的恢复效果还有提升空间。为此,我们设计了第二阶段网络来进一步提升第一阶段网络增强后的视频帧,类似于参考文献[32]中的两阶段恢复策略。与[32]不同的是,实验证明,级连两个BasicVSR++模型带来的提升极其微小,为此,我们在第二阶段使用单帧增强模型,来进一步提高视频增强质量。


SwinIR[24]是当前业界最佳图像增强方案之一,我们使用该网络作为第二阶段模型,用于进一步增强第一阶段恢复后的视频帧。SwinIR网络结构基于Transformer,需要大规模数据进行训练,为此,我们采用迁移学习方法调优第二阶段网络。具体地,我们使用[24]开源的RGB去噪网络对第二阶段网络进行权重初始化,再使用视频增强数据集对其进一步调优。


实验


数据集


我们使用两个数据集来训练提出的两阶段网络,其一是NTIRE 2022挑战赛官方发布的LDV数据集[39]。它包含240个qHD序列,包含10类场景,分别为动物、城市、特写、时尚、人、室内、公园、风景、运动和车辆。此外,我们构建了一套包含870段视频的大规模数据集,包含LDV数据集中的10个场景,每个场景87段视频,均为YouTube网站下载的4K分辨率视频序列。我们参考NTIRE 2021报告[38]中描述的数据处理程序,将4K序列转换为qHD序列。并进一步去除压缩序列中的重复帧和原始序列中的对应帧。


为了验证模型性能,从上述十个场景中,每个场景选择一个序列来构建线下验证集。这10个序列分别为LDV数据集中的030、056、102、106、109、119、124、125、158和189。此方法最终使用的训练集为1100个视频,验证集为上述10个视频。



带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(7) https://developer.aliyun.com/article/1243533?groupCode=taobaotech

相关文章
|
SQL 缓存 关系型数据库
MySQL|浅谈explain的使用
【7月更文挑战第11天】
|
12月前
|
弹性计算 运维 监控
云服务诊断测评报告
作为一名开发工程师,我日常负责云资源的运维与管理,尤其注重监控核心云资源状态以规避风险 通过云服务诊断涵盖健康状态和诊断两大核心功能能够有效提升我们的工作效率
|
算法 关系型数据库 MySQL
MySQL分库分表id主键处理
MySQL分库分表id主键处理
226 0
|
1天前
|
数据采集 人工智能 安全
|
10天前
|
云安全 监控 安全
|
2天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
911 150
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1647 8
|
6天前
|
人工智能 前端开发 文件存储
星哥带你玩飞牛NAS-12:开源笔记的进化之路,效率玩家的新选择
星哥带你玩转飞牛NAS,部署开源笔记TriliumNext!支持树状知识库、多端同步、AI摘要与代码高亮,数据自主可控,打造个人“第二大脑”。高效玩家的新选择,轻松搭建专属知识管理体系。
365 152
|
7天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
605 152