英伟达的实习生提出零样本风格迁移:多模态CLIP玩出花,只用文本就能干CV的活!

简介: 零样本的风格迁移听说过没有?英伟达一个实习生小哥集文本CLIP和图像生成StyleGAN于一身,只需要输入几个单词就可以完成你想要的风格迁移效果!再也不用为了风格迁移找数据啦!

StyleGAN想必大家都不陌生了,它借助生成对抗网络(GAN)对捕获丰富语义的潜在空间和模拟图像分布的能力,可以用来换脸、风格迁移、换肤色等等,一般的输入数据都是源域的图像和目标域的图像。 但这些模型的应用范围仅限于可以收集大量图像的域,这一要求严重限制了其适用性。事实上,在许多情况下(例如某个特定艺术家的绘画),可能没有足够的数据来训练一个GAN,甚至面临根本没有任何数据的情况。 根据以往的经验,大规模预训练模型已经见到了足够多的域的数据,也就是说直接使用Vision语言模型也许可以不用收集数据,直接根据文本就可以召回相关域的图像。 有了数据就可以建立一个文本驱动的图像生成器啦! 英伟达的实习生 Rinon Gal 最近提出这样一个模型,不需要图像输入就可以做StyleGAN,秘诀就是利用CLIP模型的多模态能力

40.jpg这种文本驱动的方法域外(out-of-domain)的图像生成,研究人员引入了一个训练方案,该方案只使用文本提示词,就可以将预训练的模型的域转移到一个新的域。
域转移(domain shift)的实现是通过修改生成器对与文本对齐的图像的权重来实现的。 41.jpg例如上图中,研究人员修改了针对真实人脸和汽车的图像生成器,就可以生成特定艺术风格的绘画。还可以在教堂里训练生成器以生成纽约市的图像。 但这种模型是相当于是「盲目」训练(train blindly)的,在训练过程中看不到目标域的任何图像,也就是说这符合zero-shot的设定。42.jpg这个模型主要由两个核心组件构成,StyleGAN和CLIP。 近年来,StyleGAN及其后继模型已然是无条件图像生成领域的老大哥,能够合成质量非常高图像。 StyleGAN生成器由两部分组成,首先,映射网络将从高斯分布采样的隐编码转换为学习的隐空间中的向量。然后把这些隐向量输入到第二个组件合成网络,用来控制网络中不同层的特征。 之前的研究也证明了,通过遍历这个中间隐空间W,或者通过在不同的网络层上混合不同的W编码,能够对生成图像中语义属性的细粒度控制。 但这种潜在空间传输通常仅限于域内修改,也就是说,它被约束到具有与初始训练集匹配的属性的图像的流形。相比之下,这篇论文的目标是在不同域之间转换生成器,而不只是在隐空间内编辑或是微调语义感知。 结合StyleGAN的生成能力和CLIP的语义知识能力的模型最近也有人提出,模型叫StyleCLIP,并且提出三种方法来利用CLIP的语义表达能力 1、隐优化技术(latent optimization technique),使用标准的反向传播方法修改给定的潜编码,使得生成的图像和给定的目标文本之间的CLIP-space内距离最小。研究人员将这个损失函数命名为全局CLIP损失。

       43.jpg

2、隐映射(latent mapper),训练网络将输入的隐编码转换为修改生成图像中文本描述属性的编码。这个映射器使用相同的全局CLIP损失进行训练,从而最小化到目标文本的CLIP-space距离。对于一些剧烈的形状修改,我们发现训练这样一个潜在的映射器可以帮助提高识别结果- 3、通过确定修改哪些维度的隐编码会导致图像空间变,从而发现GAN隐空间中有意义的变化方向。 这三个方法训练和推理时间变化很大,但它们都与其他隐空间编辑方法有一个共同的特点,它们应用于给定图像的修改在很大程度上受限于预训练生成器的图像域。所以,StyleCLIP能够改变发型、表情,甚至可以将狼变成狮子,但他们不能将照片变成其他风格的绘画。 为此研究人员主要从两方面基于StyleCLIP又做了改进(1) 如何才能最好地提取封装在CLIP中的语义信息?(2)应该如何正则化优化过程以避免模式崩溃? 首先就是损失函数的修改,除了之前提到的全局CLIP损失,第二个损失函数用来保留多样性和防止图像崩溃。一个图像对包含两个图像,一个由参考生成器生成,另一个由修改的可训练的生成器使用相同的隐编码生成。 44.jpg

把参考图像和目标图像的embedding按照CLIP-space中源文本和目标文本的embedding方向对齐。这个损失函数可以克服全局CLIP损失的缺点,如果目标生成器仅创建单个图像,则从所有源到该目标图像的剪辑空间方向将不同,所以它们不能全部与文本方向一致。其次,网络很难收敛到通用的解决方案,因此必须加入干扰来欺骗CLIP。45.jpg

在实验部分,下图可以看到如何从狗生成到各种动物。对于所有动物翻译实验,在每次迭代中将可训练层的数量设置为三层,并训练隐映射器以减少源域数据的泄漏。
可以看到变化主要集中在样式或较小的形状调整上。例如,许多动物都会竖起右耳,而大多数AFHQ数据集中的狗品种则不会。

46.jpg除了zero-shot外,研究人员还将方法与两种few-shot方案进行比较,即Ojha提出的模型和MineGAN进行比较。
第一种方法侧重于保持源域的多样性,同时适应目标域的风格,而后一种方法则通过引导GAN朝向更好地匹配目标集分布的隐空间域来稳定训练,但会牺牲一定的多样性。
下图可以看到虽然论文中提出的模型生成的图片可以看出来有人工生成的痕迹,但它成功地避免了备选方案显示的过度拟合和模式崩溃结果,保持了高度的多样性,并且能够在不提供任何目标域图像的情况下实现了这一点。47.jpg

相关文章
|
3月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
546 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
367 41
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
3月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
182 3
|
2月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
|
5月前
|
JSON 算法 安全
1688图片搜索逆向工程与多模态搜索融合实践——基于CLIP模型的特征向
本文介绍了通过逆向工程分析实现图片搜索的技术方案,包括请求特征捕获、签名算法破解及多模态搜索的实现。利用CLIP模型提取图像特征,并结合Faiss优化相似度计算,提升搜索效率。最后提供完整调用示例,模拟实现非官方API的图片搜索功能。
|
7月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2037 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
1589 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

热门文章

最新文章