继通义千问之后,阿里云通义大模型家族迎来新成员。
今天,在2023世界人工智能大会上,阿里云宣布通义系列AI绘画创作大模型通义万相开启定向邀测,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。
阿里云CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。
通义万相在语义理解和图片生成上均表现优秀,首批上线3大能力:
在基础文生图功能中,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;
在相似图片生成功能中,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;
该模型还在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。
通义万相基于阿里研发的组合式生成模型Composer,其可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。
阿里云在现场展示了该模型生成图片的效果,当输入“沉浸在全页灰度涂色的迷人世界中,有一只老虎在曼陀罗宁静的森林中,画面采用线条、笔画”后,系统能迅速生成线条细节丰富的老虎图片,如果继续使用风格迁移功能,还可随意切换图片风格。
在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相,在此之后,通义千问、通义听悟等模型和产品相继推出,通义万相的问世意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。
目前,阿里云大模型正逐步走向千行百业,已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。
“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。
/ END /