CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!

简介: 今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。

image.png

这幅图像融合了中国古典艺术与现代元素,灵感源自北宋画家王希孟的《千里江山图》。画面展现了一幅壮丽的山水长卷,青绿山水技法使得山峦起伏、江河浩渺,色彩层次丰富,细节精致入微。在这如诗如画的江山美景之上,巧妙地浮现出一个墨色淋漓的毛笔字“CogView4”,字体苍劲有力,墨迹浓淡相宜,仿佛是古代文人墨客在欣赏美景时即兴挥毫留下的印记。“CogView4”这几个字与周围的山水景致相得益彰,既不突兀也不失和谐,反而增添了一种跨越时空的对话感。整个画面既有古典山水的韵味,又融入了现代科技感的元素,呈现出一种独特的艺术张力,让人在欣赏传统美学的同时,也能感受到现代创意的碰撞与融合。

今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。 

该模型具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。该模型也是首个遵循 Apache 2.0协议开源的图像生成模型。 

一、评测

DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。 

CogView4-6B,其在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。 

image.png

二、任意长度&任意分辨率

CogView4模型实现了任意长度的文本描述任意分辨率图像的混合训练范式。 

1、图像位置编码 

CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。 

2、扩散生成建模 

模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。 

3、架构设计 

在DiT模型架构上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。 

4、多阶段训练 

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。 

5、训练框架优化

从文本角度,CogView4突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。 

从图像角度,混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件: 

image.png

 

这两点可以极大提高创作的自由度。 

示例:超长故事(四格漫画) 

请生成一张图包含四个场景的四格漫画图,采用动漫插画风格的连环画。其中主要出现的角色有: 

小明:人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装。 

公主:人类女性,美丽优雅,穿着华丽的公主服饰,被囚禁在怪兽的老巢。 

国王:人类男性,威严而仁慈,穿着华丽的王者服饰,坐在王国的宝座上。 

火焰龙:怪兽,全身覆盖着火焰般的鳞片,口吐火焰,体型庞大。 

黑暗魔王:怪兽,体型巨大,全身笼罩在黑暗中,拥有强大的魔法力量。 

Scene 1: 小明踏上征程 

创建一个动漫风格的场景,背景是壮丽的王国庭院。场景中的主要角色是小明(人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装),他正以踏上征程的姿势展现。包括庭院中的花草和远处城堡的细节,晨曦的光照传达出勇敢和决心。质量:杰作,最佳质量,超详细,4k 

Scene 2: 小明战胜火焰龙 

创建一个动漫风格的场景,背景是炽热的火山口。场景中的主要角色是小明(人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装),他正处于战胜火焰龙的瞬间。包括火山口的岩石和熔岩的细节,火红的光照传达出激烈和勇气。质量:杰作,最佳质量,超详细,4k 

Scene 3: 小明与黑暗魔王激战 

创建一个动漫风格的场景,背景是阴暗的怪兽老巢。场景中的主要角色是小明(人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装),他正处于与黑暗魔王激战的场景中。包括老巢的黑暗和魔法能量的细节,阴沉的光照传达出激烈和紧张。质量:杰作,最佳质量,超详细,4k 

Scene 4: 小明救出公主 

创建一个动漫风格的场景,背景是荒废的城堡内部。场景中的主要角色是小明(人类男孩,拥有一颗勇敢的心,手持宝剑,穿着简易的战士服装)和公主(人类女性,美丽优雅,穿着华丽的公主服饰),他们正处于小明救出公主的温馨场景中。包括城堡内部废墟和昏暗光线的细节,温柔的光照传达出感动和救赎。质量:杰作,最佳质量,超详细,4k 

三、支持中英文

在技术实现上,CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。 

目前来看,CogView4 是首个支持中英双语提示词输入的开源文生图模型,尤其擅长理解和遵循中文提示词,并能在画面中生成汉字。这两点特性更加适合国内广告、短视频等领域广泛的创意需求。 

这幅图像展现了一堵充满朋克风格的墙面,色彩鲜明且富有冲击力。墙面以深黑色为底,上面覆盖着层层叠叠的鲜艳涂鸦,包括尖锐的线条、铆钉图案和闪烁的金属质感贴纸,彰显出反叛与自由的精神。在墙面的中央位置,用粗犷的白色喷漆字体醒目地写着“CogView-4”,字迹边缘带有磨损和溅射的效果,增添了一种街头艺术的粗犷美感。在“CogView-4”下方,同样以白色喷漆书写着“不破不立”四个大字,字体风格与上方呼应,但尺寸稍小,形成视觉上的层次感。这四个字周围环绕着一些细小的涂鸦符号,如星星、骷髅和火焰,进一步强化了朋克文化的标志性元素。墙面的背景中还隐约可见一些裂痕和剥落的油漆,暗示着时间的痕迹和不断变革的力量。整幅画面充满了活力与张力,完美诠释了朋克文化中的反叛精神与创新理念。 

体验链接:

https://modelscope.cn/studios/ZhipuAI/CogView4

四、Apache协议

CogView4-6B模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。 

开源仓库地址:

* https://github.com/THUDM/CogView4 

模型仓库: 

* https://modelscope.cn/models/ZhipuAI/CogView4-6B 

最新的CogView4模型将于3月13日上线智谱清言(chatglm.cn)。 

五、模型推理

安装依赖

pip install git+https://github.com/huggingface/diffusers.git

推理代码

from diffusers import CogView4Pipeline
from modelscope import snapshot_download
import torch
model_dir = snapshot_download("ZhipuAI/CogView4-6B")
pipe = CogView4Pipeline.from_pretrained(model_dir, torch_dtype=torch.bfloat16)
# Open it for reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]
image.save("cogview4.png")

点击链接即可跳转模型详情~

https://modelscope.cn/models/ZhipuAI/CogView4-6B

目录
相关文章
|
6月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2360 120
|
6月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
6月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
6932 90
|
6月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
795 120
|
6月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
600 5
我们开源了一款 AI 驱动的用户社区
|
机器学习/深度学习 人工智能 自然语言处理
一周AI最火论文 | 新冠病毒数据开源,Kaggle发布新冠病毒挑战赛
一周AI最火论文 | 新冠病毒数据开源,Kaggle发布新冠病毒挑战赛
714 0
|
6月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1513 60
|
7月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1395 66
|
6月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
683 31

热门文章

最新文章