谷歌新款「怪物制造机」,用GAN一键生成定制版「哥斯拉」

简介: 强大的「怪兽制造器」背后,还是GAN通过结构生成生物,语义细节也逼真感知损失+Fine-Tuning,让怪物更「怪」
【新智元导读】你想象中的「怪兽」是什么样的?长着老虎的身体、恐龙的脑袋?还是有着猫的爪子、鹰的翅膀?谷歌的一个研究团队推出了一款名为 Chimera Painter 画图工具,使你可以将生物的头、爪、耳朵、爪子等随意组合,然后一键生成一只属于你自己的「怪兽」。

「亚古兽进化,暴龙兽!」

随着一声召唤,一只萌萌的数码宠兽变身为体型巨大的数码战斗兽。

相信很多80、90后的同学都对这一部《数码宝贝》印象深刻,童年他们也曾幻想能够拥有一只属于自己的数码兽。

1.gif而现在,谷歌的一个 Chimera Painter 画图工具,或许可以圆了你童年的梦。

通过Chimera Painter ,你可以在体统提供或者自己上传的生物轮廓上进行「怪物创作」,点击「转换」按钮后,系统便会生成一个属于你自己的3D效果的「怪兽」。

0.jpg

强大的「怪兽制造器」背后,还是GAN

谷歌的研究团队创建了一个数字卡片游戏原型,这个原型的概念是把生物组合成新的混合体(怪兽),然后这些混合体(怪兽)可以互相「战斗」。

在这个游戏中,玩家可以从真实世界的动物卡片(比如,美西螈或鲸鱼)开始,然后将它们组合起来,使它们变得更加「夸张」(可怕的美西螈-鲸鱼嵌合体)。

1.jpg

这为演示图像生成模型提供了一个创造性的环境,因为可能的嵌合体的数量需要一种方法来快速设计大量可以自然结合的艺术元素,同时仍然保留原始生物可识别的视觉特征。

研究团队的目标是在用户输入的指导下创建高质量的生物卡片图像,因此在用户反馈的指导下,尝试使用生成对抗网络(GANs)来创建适合幻想卡片游戏原型的生物图像。

2.gif

GAN 将两个卷积神经网络组合在一起: 一个生成器网络用于创建新图像,另一个判别器网络用于确定这些图像是否是来自训练数据集(在这种情况下,是用户创建的图像)的样本。

研究团队使用了一种称为 条件 GAN 的变体,其中生成器接受一个单独的输入来指导图像生成过程。有趣的是,这个方法严格偏离了其他GAN的工作,后者通常专注于照片写实。

为了训练 GANs,研究团队创建了一个全彩色图像数据集,其中包含单种生物的轮廓,这些轮廓改编自3D 生物模型。这种生物的轮廓描述了每种生物的形状和大小,并提供了一张分割地图来识别身体的各个部分。

模型的任务是生成多物种嵌合体,基于艺术家提供的轮廓,经过模型训练,得到表现最好的模型之后被纳入到 Chimera Painter。 

3.jpg

通过结构生成生物,语义细节也逼真

使用GAN生成生物的一个问题是,渲染图像的细微或低对比度部分时,可能会失去空间连贯性,尽管这些对人类具有很高的感知重要性。这样的例子包括眼睛,手指,甚至在具有相似纹理的重叠身体部位之间进行区分。

4.jpg

GAN 生成的图像显示不匹配的身体部位

生成嵌合体需要一个新的非摄影幻想风格的数据集,该数据集必须具有独特的特征,例如戏剧性的视角,构图和照明。现有的插图存储库不适合用作训练ML模型的数据集,因为它们可能会受到许可限制,样式冲突或缺少此任务所需的多样性。

为了解决这个问题,研究团队开发了一种新的用户主导的半自动化方法,用于从3D生物模型创建ML训练数据集,这使得团队能够进行大规模工作并根据需要快速迭代。

在此过程中,用户将创建或获取一组3D生物模型,每种所需的生物类型(例如鬣狗或狮子)都应建立一个模型。然后,用户制作了两组纹理,并使用虚拟引擎将其叠加在3D模型上——一组具有全彩色纹理(左图),另一组每个身体部位(例如头,耳朵,脖子, 等),称为「细分地图」(右图)。

然后在训练中将第二部分身体部位细分提供给模型,以确保GAN了解到各种生物特定于身体部位的结构,形状,纹理和比例。

5.jpg

实例数据集训练图像及其配对分割图

这些3D生物模型都被放置在一个简单的3D场景中,同样使用了虚幻引擎。然后,一组自动化的脚本将采用这个3D场景,并在不同的姿势、视点和每个3D生物模型的缩放级别之间进行插值,创建全彩色图像和分割地图,形成 GAN 的训练数据集。

使用这种方法,研究团队为每个3D 生物模型生成了10,000多张图片 + 分割图对,与手动生成这些数据相比,用户们节省了数百万小时的时间(每张图片大约20分钟)。

感知损失+Fine-Tuning,让怪物更「怪」

GAN 具有许多可以调整的超参数,导致输出图像的质量不同。为了更好地了解该模型的哪个版本比其他版本更好,向用户提供这些模型生成的不同生物类型的样本,并将其归纳为几个最佳示例。

该研究团队收集了有关这些示例中存在的所需特征的反馈,例如深度感,有关生物纹理的样式以及面部和眼睛的真实感等。

此信息不仅用于训练模型的新版本,而且能在模型生成成千上万的生物图像之后,从每种生物类别(例如瞪羚,山猫,大猩猩等)中选择最佳的图像。

6.jpg使用条件 GAN 创建生成的嵌合体

研究团队通过关注感知损失对GAN进行了优化。该损失函数组件(也用于Stadia的Style Transfer ML中)使用从单独的卷积神经网络(CNN)提取的特征来计算两幅图像之间的差异,该卷积神经网络之前已经对ImageNet数据集中的数百万张照片进行了训练

从CNN的不同层提取特征,并对每个特征施加权重,这会影响特征对最终损耗值的贡献,这些权重对于确定最终生成的图像的外观至关重要。

7.jpg

使用不同的感知损失重量生成的恐龙-蝙蝠嵌合体

这是由GAN训练产生的一些生物,它们具有不同的感知损失权重,展示了模型可以处理的一小部分输出和姿势。

谷歌的该团队希望,这些GAN模型和Chimera Painter演示工具可以激发人们新的艺术创作思路——使用机器学习作为画笔时,可以创建什么?

相关文章
|
持续交付 项目管理 开发工具
【必备工具】gitee上传-保姆级教程
【必备工具】gitee上传-保姆级教程
|
消息中间件 开发者 微服务
构建高效代码:模块化设计原则的实践与思考
【2月更文挑战第14天】在软件开发的世界中,编写可维护、可扩展且高效的代码是每个开发者追求的目标。本文将探讨如何通过应用模块化设计原则来提升代码质量,分享一些实践中的经验教训以及对未来技术趋势的思考。
434 1
|
2月前
|
传感器 数据采集 人工智能
[开源免费]基于 STM32 的物流分拣小车设计与实现
基于STM32的智能物流分拣小车,集成红外循迹、超声波避障、无线通信等功能,实现自动识别、路径规划与货物分拣。采用STM32F103为核心,结合传感器融合与电机控制,构建低成本、可扩展的自动化分拣方案,适用于仓储物流及教学实践。(238字)
[开源免费]基于 STM32 的物流分拣小车设计与实现
|
8月前
|
存储 算法 NoSQL
2025 春季校招 java 研发岗位笔试题及相关内容
这份指南针对2025春季校招Java研发岗位,系统梳理了笔试核心知识点。内容涵盖Java基础(关键字、数据类型、循环与条件判断)、集合框架(List、Set、Map)、多线程(创建、同步、休眠与等待)以及异常处理(类型与机制)。通过典型例题解析与实践指导,帮助求职者掌握解题思路,提升编程能力,为成功通过校招笔试奠定基础。资源链接:[https://pan.quark.cn/s/14fcf913bae6](https://pan.quark.cn/s/14fcf913bae6)
244 0
|
SQL 关系型数据库 MySQL
关系型数据库mysql跨平台兼容性
【6月更文挑战第13天】
807 4
|
安全 网络安全 数据安全/隐私保护
访问控制列表(ACL)是网络安全管理的重要工具,用于定义和管理网络资源的访问权限。
访问控制列表(ACL)是网络安全管理的重要工具,用于定义和管理网络资源的访问权限。ACL 可应用于路由器、防火墙等设备,通过设定规则控制访问。其类型包括标准、扩展、基于时间和基于用户的ACL,广泛用于企业网络和互联网安全中,以增强安全性、实现精细管理和灵活调整。然而,ACL 也存在管理复杂和可能影响性能的局限性。未来,ACL 将趋向智能化和自动化,与其他安全技术结合,提供更全面的安全保障。
1098 4
|
JavaScript 数据管理 编译器
揭秘 ArkTS 与 TypeScript 的神秘差异:鸿蒙系统开发者的必备知识与实战技巧
【10月更文挑战第18天】ArkTS 是华为为鸿蒙系统(HarmonyOS)推出的开发语言,作为 TypeScript 的超集,它针对鸿蒙系统的分布式特性和需求进行了优化和扩展。ArkTS 强化了分布式数据管理、类型系统、编译与运行时性能,并支持声明式 UI 和专为鸿蒙设计的 API,使开发者能够更高效地开发跨设备协同工作的应用。
1166 6
|
数据挖掘 Linux iOS开发
Pandas
【7月更文挑战第4天】Pandas
983 59
|
消息中间件 关系型数据库 MySQL
[flink 实时流基础] 输出算子(Sink)
[flink 实时流基础] 输出算子(Sink)
957 1

热门文章

最新文章