魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(下)

简介: 魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型

二、 多模态可变的扩散模型

 

image.png

 

接下来,讲一讲维度可变的扩散模型,这是目前效果最好的一种生成模型范式。

传统的生成器架构,使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块,成为一个大图。当训练数据量非常大时,多阶段的超分学习方没有纠错能力,经常会出错。

 

因此达摩院在文本生成图像模型方面,进行创新,达摩院提出维度可变的扩散模型生成器,采取端到端学习的方式,不仅高效,而且有非常强的纠错能力。

 

image.png

 

接下来,举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟,是算法生成的虚假图片,并不是来自某个设计师。

 

image.png

 

上图中的人物极具真实感,很像照相机拍摄的效果。但这些都是是算法直接出图的效果。

 

image.png

 

除此之外,如上图所示,该模型还可以自动生成二次元的动漫风格。

 

image.png

 

上图中带有3D效果的动画场景,比如房子、街道、风景、人物等等,均是模型自动生成的。

 

image.png

 

与此同时,用户还可以基于模型,进行创意应用,比如创意广告的图片生成。如上图所示,系统可以将一个茶壶,放到一茶园、落日、瀑布等场景,非常自然地融入。

 

image.png

 

与此同时,达摩院对文本生成视频进行探索,相比文本生成图像,它的效果暂时没有那么真实。

 

文本生成视频的算法架构,是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于,文本生成图像的基础能力。

 

image.png

 

目前,上述的文本生成模型均在ModelScope社区开源,大家可以登陆网址:https://decoder.modelscope.cn,或者通过手机扫描上方的二维码进行体验。

相关文章
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
383 121
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
241 113
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
301 114
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
309 120
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
275 117
|
3月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
863 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
2月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
640 2