谷歌新款「怪物制造机」,用GAN一键生成定制版「哥斯拉」

简介: 强大的「怪兽制造器」背后,还是GAN通过结构生成生物,语义细节也逼真感知损失+Fine-Tuning,让怪物更「怪」
【新智元导读】你想象中的「怪兽」是什么样的?长着老虎的身体、恐龙的脑袋?还是有着猫的爪子、鹰的翅膀?谷歌的一个研究团队推出了一款名为 Chimera Painter 画图工具,使你可以将生物的头、爪、耳朵、爪子等随意组合,然后一键生成一只属于你自己的「怪兽」。

「亚古兽进化,暴龙兽!」

随着一声召唤,一只萌萌的数码宠兽变身为体型巨大的数码战斗兽。

相信很多80、90后的同学都对这一部《数码宝贝》印象深刻,童年他们也曾幻想能够拥有一只属于自己的数码兽。

1.gif而现在,谷歌的一个 Chimera Painter 画图工具,或许可以圆了你童年的梦。

通过Chimera Painter ,你可以在体统提供或者自己上传的生物轮廓上进行「怪物创作」,点击「转换」按钮后,系统便会生成一个属于你自己的3D效果的「怪兽」。

0.jpg

强大的「怪兽制造器」背后,还是GAN

谷歌的研究团队创建了一个数字卡片游戏原型,这个原型的概念是把生物组合成新的混合体(怪兽),然后这些混合体(怪兽)可以互相「战斗」。

在这个游戏中,玩家可以从真实世界的动物卡片(比如,美西螈或鲸鱼)开始,然后将它们组合起来,使它们变得更加「夸张」(可怕的美西螈-鲸鱼嵌合体)。

1.jpg

这为演示图像生成模型提供了一个创造性的环境,因为可能的嵌合体的数量需要一种方法来快速设计大量可以自然结合的艺术元素,同时仍然保留原始生物可识别的视觉特征。

研究团队的目标是在用户输入的指导下创建高质量的生物卡片图像,因此在用户反馈的指导下,尝试使用生成对抗网络(GANs)来创建适合幻想卡片游戏原型的生物图像。

2.gif

GAN 将两个卷积神经网络组合在一起: 一个生成器网络用于创建新图像,另一个判别器网络用于确定这些图像是否是来自训练数据集(在这种情况下,是用户创建的图像)的样本。

研究团队使用了一种称为 条件 GAN 的变体,其中生成器接受一个单独的输入来指导图像生成过程。有趣的是,这个方法严格偏离了其他GAN的工作,后者通常专注于照片写实。

为了训练 GANs,研究团队创建了一个全彩色图像数据集,其中包含单种生物的轮廓,这些轮廓改编自3D 生物模型。这种生物的轮廓描述了每种生物的形状和大小,并提供了一张分割地图来识别身体的各个部分。

模型的任务是生成多物种嵌合体,基于艺术家提供的轮廓,经过模型训练,得到表现最好的模型之后被纳入到 Chimera Painter。 

3.jpg

通过结构生成生物,语义细节也逼真

使用GAN生成生物的一个问题是,渲染图像的细微或低对比度部分时,可能会失去空间连贯性,尽管这些对人类具有很高的感知重要性。这样的例子包括眼睛,手指,甚至在具有相似纹理的重叠身体部位之间进行区分。

4.jpg

GAN 生成的图像显示不匹配的身体部位

生成嵌合体需要一个新的非摄影幻想风格的数据集,该数据集必须具有独特的特征,例如戏剧性的视角,构图和照明。现有的插图存储库不适合用作训练ML模型的数据集,因为它们可能会受到许可限制,样式冲突或缺少此任务所需的多样性。

为了解决这个问题,研究团队开发了一种新的用户主导的半自动化方法,用于从3D生物模型创建ML训练数据集,这使得团队能够进行大规模工作并根据需要快速迭代。

在此过程中,用户将创建或获取一组3D生物模型,每种所需的生物类型(例如鬣狗或狮子)都应建立一个模型。然后,用户制作了两组纹理,并使用虚拟引擎将其叠加在3D模型上——一组具有全彩色纹理(左图),另一组每个身体部位(例如头,耳朵,脖子, 等),称为「细分地图」(右图)。

然后在训练中将第二部分身体部位细分提供给模型,以确保GAN了解到各种生物特定于身体部位的结构,形状,纹理和比例。

5.jpg

实例数据集训练图像及其配对分割图

这些3D生物模型都被放置在一个简单的3D场景中,同样使用了虚幻引擎。然后,一组自动化的脚本将采用这个3D场景,并在不同的姿势、视点和每个3D生物模型的缩放级别之间进行插值,创建全彩色图像和分割地图,形成 GAN 的训练数据集。

使用这种方法,研究团队为每个3D 生物模型生成了10,000多张图片 + 分割图对,与手动生成这些数据相比,用户们节省了数百万小时的时间(每张图片大约20分钟)。

感知损失+Fine-Tuning,让怪物更「怪」

GAN 具有许多可以调整的超参数,导致输出图像的质量不同。为了更好地了解该模型的哪个版本比其他版本更好,向用户提供这些模型生成的不同生物类型的样本,并将其归纳为几个最佳示例。

该研究团队收集了有关这些示例中存在的所需特征的反馈,例如深度感,有关生物纹理的样式以及面部和眼睛的真实感等。

此信息不仅用于训练模型的新版本,而且能在模型生成成千上万的生物图像之后,从每种生物类别(例如瞪羚,山猫,大猩猩等)中选择最佳的图像。

6.jpg使用条件 GAN 创建生成的嵌合体

研究团队通过关注感知损失对GAN进行了优化。该损失函数组件(也用于Stadia的Style Transfer ML中)使用从单独的卷积神经网络(CNN)提取的特征来计算两幅图像之间的差异,该卷积神经网络之前已经对ImageNet数据集中的数百万张照片进行了训练

从CNN的不同层提取特征,并对每个特征施加权重,这会影响特征对最终损耗值的贡献,这些权重对于确定最终生成的图像的外观至关重要。

7.jpg

使用不同的感知损失重量生成的恐龙-蝙蝠嵌合体

这是由GAN训练产生的一些生物,它们具有不同的感知损失权重,展示了模型可以处理的一小部分输出和姿势。

谷歌的该团队希望,这些GAN模型和Chimera Painter演示工具可以激发人们新的艺术创作思路——使用机器学习作为画笔时,可以创建什么?

相关文章
|
4月前
|
人工智能 自然语言处理 测试技术
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
39 4
|
4月前
|
移动开发 前端开发 JavaScript
一个GPT3.5调教出来的下雪特效代码
一个GPT3.5调教出来的下雪特效代码
|
人工智能 算法 计算机视觉
击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩
击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩
120 0
|
机器学习/深度学习 人工智能 算法
ICLR 2022 Spotlight|让AI学会捏橡皮泥飞机
ICLR 2022 Spotlight|让AI学会捏橡皮泥飞机
|
编解码 算法 vr&ar
厚度仅2.5毫米,重60克,英伟达&斯坦福做出了超轻薄VR眼镜(1)
厚度仅2.5毫米,重60克,英伟达&斯坦福做出了超轻薄VR眼镜
124 0
|
算法 vr&ar
厚度仅2.5毫米,重60克,英伟达&斯坦福做出了超轻薄VR眼镜(2)
厚度仅2.5毫米,重60克,英伟达&斯坦福做出了超轻薄VR眼镜
|
人工智能 机器人 测试技术
谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?
如今的AI领域出现了一波新趋势——文本到图像生成器。只要把文本描述输入这些程序,它们主涌生成与描述内容高度匹配的精准图片。这些程序还支持各种风格,从油画、CGI 渲染再到实景照片无所不包。总之,只有你想不到,没有它画不出。
796 0
谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?
|
机器学习/深度学习 人工智能 数据可视化
程序人生 - Nature封面:脑机接口突破,可将脑中“笔迹”转为屏幕字句,速度创纪录,准确率超高
程序人生 - Nature封面:脑机接口突破,可将脑中“笔迹”转为屏幕字句,速度创纪录,准确率超高
128 0
程序人生 - Nature封面:脑机接口突破,可将脑中“笔迹”转为屏幕字句,速度创纪录,准确率超高
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 传感器 人工智能
登上Nature子刊封面:英特尔神经芯片实现在线学习
神经形态芯片真的可以模拟人脑吗?最近一期《自然机器智能》的封面研究向我们展示了这一可能性。
159 0
登上Nature子刊封面:英特尔神经芯片实现在线学习