岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想

简介: 岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想
【新智元导读】特斯拉前AI总监点赞!这个开源AI艺术创作模型,想要开启「人机合作」艺术创作新时代。


近日,由Emad Mostaque创立和资助的Stability.ai公司宣布公开发布AI创造的艺术作品。

你可能认为这只是AI在艺术领域的另一次尝试,但实际上远不止如此。

有两个原因。首先,与DALL-E 2不同的是,Stable Diffusion是开源的。这意味着任何人都可以利用它的骨干,免费建立针对特定文本到图像创作任务的应用程序。另外,Midjourney的开发者实施了一项功能,允许用户将其与Stable Diffusion结合起来,这导致了一些惊人的结果。试想一下,在接下来的几个月里会出现什么。第二,与DALL-E mini和Disco Diffusion不同,Stable Diffusion可以创造出惊人的逼真和艺术作品,对OpenAI或谷歌的模型没有什么可羡慕的。人们甚至声称它是「生成式搜索引擎」中新的SOTA。(除非另有说明,本文所有图片都是通过Stable Diffusion创作的)。Stable Diffusion 体现了人工智能艺术世界的最佳特征:它可以说是现有最好的人工智能艺术模型,而且是开源的。这简直是闻所未闻,将产生巨大的影响。更有趣的是,关于这些服务的消息可能会通过最意想不到的来源到达你的手中。你的父母、你的孩子、你的伴侣、你的朋友或你的同事。这些人往往是人工智能领域发生的事情的局外人,他们即将发现这个领域的最新趋势。艺术可能成为AI最终敲开那些对未来视而不见的人的大门的方式。这不是很有诗意吗?

不只是开源的DALL·E 2

Stability.ai的诞生是为了创造「开放的AI工具,让我们发挥潜能」。不仅仅是从未进入大多数人手中的研究模型,而是具有现实世界应用的工具,开放给我和你来使用和探索。

这是与其他科技公司不同的地方,比如OpenAI,它嫉妒地守护着它最好的系统(GPT-3和DALL-E 2)的秘密,或者谷歌,它甚至从未打算将自己的(PaLM、LaMDA、Imagen或Parti)作为私人测试版发布。Stability.ai的这次公开发布不仅分享了模型权重和代码——虽然这对科学和技术的健康发展很关键,但大多数人并不关心它们。而且还为我们这些不想或不知道如何编码的人提供了一个无代码的即用型网站。网站名叫DreamStudio Lite,可以免费使用,最多可生成200张图片。像DALL-E 2一样,它采用付费订阅模式,可以用10英镑获得1千张图片(OpenAI每月补充15个积分,但要获得更多的积分,你必须以15美元购买115个包)。DALL-E的成本为0.03美元/图,而Stable Diffusion的成本为0.01英镑/图。此外,还可以通过API大规模地使用Stable Diffusion(成本呈线性增长,所以你可以用1000英镑获得100K代)。除了图像生成,Stability.ai很快将宣布DreamStudio Pro(音频/视频)和Enterprise(工作室)。DreamStudio可能很快会实现的另一个功能是,可以从其他图像生成图像,而不是通常的文本到图像的设置。就像下面这样:  在网站上,还有一个关于提示工程的资源,如果你是这方面的新手,你可能会用得上。另外,与DALL-E 2不同,你可以控制参数来影响结果,并对其保留更多的代理权。Stability.ai已经做了一切来促进人们对模型的访问。OpenAI是第一个,必须走得更慢,以评估模型固有的潜在风险和偏见,但他们不需要将模型保持在封闭测试阶段这么久,也不需要建立这样一个限制创造力的商业模式。Midjourney和Stable Diffusion都已经证明了这一点。 安全+开源 > 隐私和控制

开源技术有其自身的局限性。开放性应该走在隐私和严格控制之前,但不应该走在安全之前。正如该公司在公告中解释的那样,它是「一个允许商业和非商业使用的许可」,重点是模型的开放和负责任的下游使用。它还强制要求衍生作品至少要受到同样的基于用户的限制。开源模型本身是很好的模式,但如果我们不希望这项技术最终伤害人们,或以错误信息的形式为互联网增加更多的傲慢,建立合理的护栏也同样重要。「由于这些模型是在广泛的互联网搜刮的图像-文本对上训练出来的,模型可能会重现一些社会偏见,产生不安全的内容,所以开放的缓解策略以及对这些偏见的公开讨论可以让大家参与到这个对话中来。」在任何情况下,开放性+安全性>隐私和控制。

开源力量改变世界

凭借道德价值和开放性的坚实基础,Stable Diffusion承诺在现实世界的影响方面超越其竞争对手。


对于那些想下载它并在他们的电脑上运行它的人来说,你应该知道它需要6.9Gb的VRAM--这适合于高端消费级GPU,使它比DALL-E 2要轻,但对大多数用户来说仍然是遥不可及的。其余的人,像我一样,可以马上开始使用Dream Studio。Stable Diffusion 被普遍认为是目前最好的AI艺术模型,它将成为无数应用程序、网络和服务的基础,重新定义我们如何创造和与艺术互动。但现在,专门为不同使用情况设计的应用程序将从头开始建立,供所有人使用。人们正在增强儿童画,用外画+内画制作拼贴画,设计杂志封面,画漫画,创造变形和动画视频,从图像中生成图像,等等。其中一些应用在DALL-E和Midjourney中已经成为可能,但Stable Diffusion可以推动当前的创意革命进入下一个阶段。用前特斯拉AI总监、李飞飞高徒Andrej Karpathy的话说,就是让「艺术创作进入了人类+AI合作的新时代。」像Stable Diffusion这样的AI艺术模型涉及到一类新工具,应该用我们所处的新现实的新思维框架来理解。我们不能简单地与其他时代进行类比或平行对比,并期望能够准确地解释或预测未来。有些事情会相似,有些则不会。我们必须把这个即将到来的未来当作未知的领域。

写在最后

毫无疑问,Stable Diffusion的公开发布是人工智能艺术模型领域有史以来最重要和最有影响的事件,而这只是一个开始。

作者之一的Emad Mostaque在Twitter上说:"随着我们发布更快、更好和具体的模型,预计质量将继续全面上升。不仅仅是图像,下个月是音频,然后转向3D、视频。语言、代码,以及更多训练。

我们正处于一场为期数年的革命的边缘,在我们互动、联系和理解艺术,特别是一般的创造力的方式。而且不仅仅是在哲学、知识领域,而是作为现在每个人都分享和体验的东西。创意世界将永远改变,我们必须进行开放和尊重的对话,为所有人创造一个更好的未来。只有负责任地使用开源技术,才能创造我们希望看到的变化。参考资料:https://thealgorithmicbridge.substack.com/p/stable-diffusion-is-the-most-important

相关文章
|
2月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
668 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
4月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
278 3
|
8月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1982 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
697 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
8月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1678 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
8月前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
1290 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
8月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
981 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
7月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
726 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
3月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
645 14
|
4月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型

热门文章

最新文章