CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法

简介: CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
本文提出了一种基于 Transformer 的图像风格迁移方法 ,我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域 的应用。



图像风格化是一个有趣且实用的课题,它可以使用参考的风格图像来呈现内容图像,多年以来在学术界被广泛研究,并已在包括短视频领域在内的业界得到大规模的落地应用。例如,移动互联网用户可以通过快手主站、极速版、一甜相机和快影等一系列 APP,体验包括手绘、水彩、油画和 Q 版萌系风格在内的各种人像风格化特效。

传统的基于纹理合成的风格化方法可以生成生动的风格化图像,但由于包含笔画外观和绘画过程的建模,计算起来很复杂。随后,研究人员聚焦于基于卷积神经网络的神经风格化。基于优化的风格化方法参照内容图像与风格图像,不断迭代优化生成结果。按照编码器 - 风格化模块 - 解码器的设计,任意风格化方法利用端到端的方式,根据风格图片调整内容图片的二阶统计信息,可以高效地生成风格化结果。但是,由于对内容和风格之间关系的建模能力有限,这些方法在很多情况下不能取得令人满意的结果。为了克服这一问题,一些研究方法应用自注意机制来改进风格化结果。

目前主流的的风格化方法一般利用卷积神经网络学习风格和内容表示。由于卷积运算的感受野有限,只有卷积网络比较深,才能捕获图片的长程依赖关系。但是,网络深度的增加会导致图片特征分辨率降低和细节的丢失。细节的缺失体现在风格化结果中就是会影响内容结构的保存和风格模式的显示。如图 1(a) 所示,基于卷积神经网络的风格化算法在特征提取过程中忽略了一些细节,网络浅层关注局部特征,深层通过整合局部信息才能获取全局信息。此外,有研究工作发现典型的基于 CNN 的风格化方法获取的内容表示是不准确的,会导致内容泄漏的问题: 经过几轮重复的风格化操作,风格化结果中几乎不能保留任何原始输入的内容结构信息。

图 1 (a)基于 CNN 的风格化中间层可视化结果;(b)我们的方法中间层可视化结果随着 Transformer 在自然语言处理 ( Natural Language Processing, NLP) 领域的成功,基于 Transformer 的架构已被用于各种视觉任务。Transformer 应用 于计算机视觉的优点有两个:首先,在自注意机制的帮助下,Transformer 可以很容易地学习输入的全局信息,从而在每一层都可以获得对输入的整体的理解; 其次,Transformer 是一种关系建模的结构,不同层可以提取相似的结构信息 (如图 1(b) 所示)。因此,Transformer 具有较强的特征表示能力,可以避免特征提取过程中细节的丢失,并能很好地保存生成的结构。

本文针对基于 CNN 的风格化方法存在的内容表达存在偏差的问题,提出了一种新颖的图像风格化算法,即 StyTr^2。方法
为了利用 Transformer 捕获长期依赖关系的能力来实现图像风格化,本文设计了图 2 中结构,模型主要包括三部分:内容 Transformer 编码器,风格 Transformer 编码器和 Transformer 解码器。内容 Transformer 编码器和风格 Transformer 编码器分别用来编码内容域和风格域的图片的长程信息,这种编码方式可以有效避免细节丢失问题。Transformer 解码器用来将内容特征转换为带有风格图片特征的风格化结果。

图 2 网络结构

此外,本文针对传统位置编码提出两个重要问题。第一,对于图像生成任务,在计算 PE(位置编码)时,是否应该考虑图像语义? 传统的 PE 是根据按照逻辑排序的句子来设计的,而图像序列是根据图像内容语义来组织的。假设两个图像补丁之间的距离为 d(.,.) 。如图 3(a) 右边部分所示,d((0 , 3 ), (1 , 3 )) (红色和绿色块) 之间的差异与 d(( 0 , 3 ), (3 , 3 )) (红色和青色 块) 之间的差异应该是相似的,因为风格化任务要求相似的内容补丁有相似的风格化结果。第二,当输入图像尺寸呈指数级增大时,传统的正弦位置编码是否仍然适用于视觉任务? 如 3(a) 所示,当图像大小发生变化时,相同语义位置的补丁 (用蓝色小矩形表示) 之间的相对距离会发生显著变化,这不适合视觉任务中的多尺度输入要求。

图 3  CAPE 计算示意图


为此,本文提出了内容感知的位置编码 (Content-Aware Positional Encoding,CAPE),它具有尺度不变且与内容语义相关的特点,更适合于风格化任务。

结果展示

如图 4 所示,与 state-of-the-art 方法相比,StyTr^2 利用了基于 Transformer 的网络,具有更好的特征表示能力,捕获输入图像的长期依赖关系,并避免丢失内容和风格细节。因此,本文方法的结果可以实现高质量的风格化,使结果同时保持良好的内容结构和丰富的风格模式。

图 4 风格化结果比较

图 5 展示了第 1 轮和第 20 轮的风格化结果。首先,比较第一轮的风格化结果。基于 CNN 的方法生成的结果内容结构受到了不同程度的破坏,但本文的结果仍然具有清晰的内容结构。虽然 ArtFlow 生成的结果保持了清晰的内容结构,但风格化的效果并不令人满意 (例如,边缘缺陷和不合适的样式模式)。其次,随着风格化次数的增加,基于 CNN 的方法生成的内容结构趋于模糊,而我们的方法生成的内容结构仍然是清晰的。

图 5 多轮风格化结果比较

相关文章
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32225 117
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4724 4
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6828 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4788 11
|
16天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5680 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
人工智能 JavaScript 安全
Claude Code 安装指南
Claude Code 是 Anthropic 推出的本地 AI 编程助手,支持 Mac/Linux/WSL/Windows 多平台一键安装(Shell/PowerShell/Homebrew/NPM),提供 CLI 交互、代码生成、审查、Git 提交等能力,并内置丰富斜杠命令与自动更新机制。
4286 0
|
16天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6244 6
|
18天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7769 17