带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)

带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3) https://developer.aliyun.com/article/1243537?groupCode=taobaotech




关工作


视频恢复


压缩视频质量增强作为视频恢复的主要研究方向之一,在过去的几年里得到了的广泛研究[11,15,35,41,42]。其中,现有的方法大多是基于单帧的质量增强[11,35,41]。观察到压缩后的视频帧之间存在明显的质量波动,MFQE[42]及

其扩展版本MFQE 2.0[15]提出利用邻近的高质量帧对待增强帧进行补偿。这两个方法采用时序融合方案,利用显示光流预测来进行运动补偿。STDF[9]利用可变形卷积,同样考虑了时序信息补偿,并避免了显式光流估计不准可能导致的对齐问题。


视频超分


除了压缩视频质量增强,视频超分辨率(VSR)也是视频恢复的一个主要研究方向。VSR通过提高视频帧的分辨率来恢复视频质量,与单张图像超分辨率(single image super resolution, SISR)不同,VSR可以利用相邻帧信息来重建高分辨率序列。现有的VSR方法可分为两类:基于滑动窗口的方法[22,32,36,43]和循环方法[4,5,18,19]。其中,EDVR[32]采用可变形卷积[8,46]来对齐相邻帧。与EDVR类似,D3DNet[43]利用可变形的3D卷积挖掘视频时空信息。BasicVSR[4]对VSR方法中的传播、对齐、聚合、上采样等基本组件进行了梳理,并提出一个简洁有效的基线方法。在BasicVSR基础上,BasicVSR++[5]通过双向传播策略和光流引导的可变形卷积对齐进一步提高了性能。


我们采用BasicVSR++作为第一阶段的骨干模型。


视觉Transformer


近年来,起源于自然语言处理 (Natural Language Processing, NLP)的Transformer网络在许多视觉任务中表现优异,包括图像分类、目标检测、语义分割、人体姿态估计和视频分类[1,3,12,16,26,26,34,34,44]。具体地,

SwinTransformer[26]提出了一种具有滑动窗口机制的层级Transformer结构,既有CNN的归纳偏置,又有Transformer具有长程注意力的优点。


也有工作尝试将Transformer应用到底层视觉任务中[6,7,20,24,33,37,45]。例如,SwinIR[24]提出了基于Swin Transformer的图像恢复模型,它不仅能够很好地处理局部相关性,还能有效地捕获长程依赖关系。Uformer[33]提出了一种通用的基于UNet的Transformer结构,在真实场景图像降噪任务中表现出了杰出的性能。


Transformer也被用于视频恢复任务[2,13,23]。VSRT[2]利用Transformer的并行计算能力来并行化相邻帧特征对齐。VRT[23]提出了时序交互自注意模块,用于更好地挖掘时空信息。但是由于这些方法模型训练消耗巨大的显存资源,目前还无法实现较长的输入视频帧训练。


我们采用SwinIR作为第二阶段的骨干模型。


带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5) https://developer.aliyun.com/article/1243535?groupCode=taobaotech



相关文章
|
存储 分布式计算 监控
深入浅出 HBase 实战 | 青训营笔记
Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等待。
1436 0
深入浅出 HBase 实战 | 青训营笔记
|
SQL 分布式计算 Hadoop
Hive使用Impala组件查询(1)
Hive使用Impala组件查询(1)
883 0
|
人工智能 Java 对象存储
Java获取阿里云图片临时URL与图片文件转换Base64编码方法
在使用阿里云人工智能产品服务时,有部分服务需要上传的参数中包含文件URL,当我们没有开通OSS服务时,可以使用临时URL服务、或部分服务支持Base64编码格式,此文章为生成临时URL-JavaSDK方案与图片文件转换Base64编码方案。
2355 0
|
10月前
|
人工智能 自然语言处理 语音技术
Ai好记全面接入DeepSeek大模型!重塑知识管理新体验
Ai好记融合DeepSeek大模型,带来知识管理新纪元。视频秒变知识胶囊,外语资料自动转母语,一键构建思维导图。六大核心能力包括结构化笔记、AI播客、全平台解析等,全面提升学习和工作效率。立即登录aihaoji.com体验!
|
运维 数据可视化 数据处理
实时计算Flink场景实践和核心功能体验 评测
实时计算Flink场景实践和核心功能体验 评测
382 5
|
人工智能 自然语言处理
如何使用 Co-STAR 模型来设计提示词
如何使用 Co-STAR 模型来设计提示词
1721 0
|
消息中间件 算法
分布式篇问题之“最终一致性”问题如何解决
分布式篇问题之“最终一致性”问题如何解决
142 0
|
数据可视化 数据挖掘 数据处理
statsmodels, Python 统计分析工具库!
statsmodels, Python 统计分析工具库!
377 1
将图片(路径)转换为Base64 和 将base64转换为file类型
将图片(路径)转换为Base64 和 将base64转换为file类型
|
前端开发
React组件通信:如何优雅地实现组件间的数据传递
React组件通信:如何优雅地实现组件间的数据传递
470 0