阿里云百炼AI大模型有哪些？文本、图片、语音、视频及向量模型大全-阿里云开发者社区

阿里云百炼AI大模型有哪些？文本、图片、语音、视频及向量模型大全

2025-12-27 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云百炼支持通义千问、通义万相等自研模型及DeepSeek、Kimi、Llama等第三方大模型，覆盖文本、图像、语音、视频、向量等多模态类型，提供生成、识别、编辑等全场景AI能力。新用户可免费领取最高7000万Tokens，助力高效开发与应用。

阿里云百炼AI大模型有哪些？文本、图片、语音、视频及向量模型大全，阿里云百炼平台不仅支持自家的通义千问、通义万相等，还支持第三方大模型，如DeepSeek、Kimi、GLM-4.5、Llama、百川、MiniMax等模型。阿里云百炼支持的模型类型包括文本生成、图像生成、语音合成、语音识别、视频生成、文本向量、多模态向量、角色扮演等类型。阿小云分享阿里云百炼支持大模型整理，开通百炼最高可领7000万Tokens，阿里云百炼平台开通：https://www.aliyun.com/product/bailian

阿里云百炼AI大模型支持.png
阿里云百炼AI大模型

阿里云活动中心查看AI大模型

阿里云活动中心：https://www.aliyun.com/activity 查询AI大模型活动，新用户开通阿里云百炼平台，免费领取每个模型100万Tokens，最高可以领取5000万Tokens如下图：

免费领取阿里云百炼AI大模型Tokens

一、文本生成模型

文本生成模型分为通用大语言模型、多模态模型和领域模型：

1、通用大语言模型：

通义千问大语言模型：商业版（通义千问Max、通义千问Plus、通义千问Flash）、开源版（Qwen3、Qwen2.5）、超长文档模型通义千问Long。第三方模型包括DeepSeek、Kimi、GLM-4.5等。

2、多模态模型

多模态模型：视觉理解模型通义千问VL、视觉推理模型QVQ、音频理解模型通义千问Audio、全模态模型通义千问Omni。

3、领域模型

领域模型：代码模型、数学模型、翻译模型、法律模型、数据挖掘模型、深入研究模型、意图理解模型、角色扮演模型。

二、图像生成模型

图像生成模型分为文生图和图像编辑：

1、文生图

通义千问文生图：在复杂文本渲染方面表现突出，特别是中英文文本渲染。
通义万相文生图：适用于生成证件照、电商主图、模特图、各种风格人像图（动漫、国风、二次元等）。
第三方模型：Stable Diffusion和FLUX。
更多模型：创意海报生成、创意文字生成-WordArt锦书

2、图像编辑

通义千问图像编辑：支持中英文提示词输入，可实现风格迁移、文字修改、物体编辑等复杂图文编辑操作。
通义万相图像编辑：适用于扩图、去水印、风格迁移、背景生成、图像修复、图像美化等场景。
更多模型：通义千问图像翻译、通义万相涂鸦作画、通义万相图像局部重绘、人像风格重绘、图像背景生成、图像画面扩展、图像画面扩展、人物实例分割、图像擦除补全、虚拟模特、鞋靴模特、人物写真生成-FaceChain、AI试衣

三、语音合成与识别模型

语音合成与识别分为语音合成和语音识别/翻译：

1、语音合成

Qwen-TTS-Realtime、Qwen-TTS、CosyVoice和Sambert可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。

2、语音识别/翻译

Fun-ASR、Gummy、Paraformer和SenseVoice可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy还支持语音翻译。

四、视频编辑与生成模型

视频编辑与生成分为文生视频、图生视频和视频编辑：

1、文生视频

文生视频：一句话生成视频，视频风格丰富，画质细腻。

2、图生视频

首帧生视频：以输入图像作为视频首帧，结合提示词生成完整视频。
首尾帧生视频：提供首帧与尾帧图像，结合提示词生成过渡自然的视频。
多图生视频：支持输入一张或多张图片，参考图片中的主体或背景，并结合提示词生成视频。
图+动作模板生成舞蹈视频：舞动人像AnimateAnyone基于人物图片和动作视频生成舞蹈视频。

图+音频生成对口型视频：

通义万相-数字人基于人物图片和音频，动作幅度大且自然，支持全身、半身、肖像等多种画幅，适合唱歌、表演等场景。
悦动人像EMO基于人物图片和音频，口型与表情表现力强，支持肖像、半身，适合人物特写场景。
灵动人像LivePortrait基于人物图片和音频，适合语音播报场景。

图+表情模板生成表情包视频：表情包Emoji基于人脸图片和预设的人脸动态模板，生成人脸表情包视频。

3、视频编辑

通用视频编辑：基于输入的文本提示词、图片和视频，可执行多种视频编辑任务。例如，通过提取输入视频的运动特征，并结合提示词生成新的视频。

视频口型替换：声动人像VideoRetalk基于人物视频和音频，适合短视频制作、视频翻译等场景。

视频风格转换：视频风格重绘可将视频转换为日式漫画、美式漫画等风格。

五、向量模型

向量模型分为文本向量和多模态向量：

1、文本向量

文本向量：将文本转换成一组可以代表文字的数字，用于搜索、聚类、推荐、分类等。

2、多模态向量

多模态向量：将文本、图像、语音转换成一组数字，用于音视频分类、图像分类、图文检索等。

六、行业模型

行业模型如通义法睿、意图理解：

1、通义法睿

通义法睿：适用于法律咨询、案例分析和法规解读等。

2、多模态向量

意图理解：意图理解模型能够在毫秒级时间内解析用户意图，并选择合适工具来解决用户问题。

更多关于阿里云百炼大模型及收费标准，请参考阿里云百炼官方页面：https://www.aliyun.com/product/bailian

阿里云百炼AI大模型有哪些？文本、图片、语音、视频及向量模型大全

阿里云活动中心查看AI大模型

一、文本生成模型

1、通用大语言模型：

2、多模态模型

3、领域模型

二、图像生成模型

1、文生图

2、图像编辑

三、语音合成与识别模型

1、语音合成

2、语音识别/翻译

四、视频编辑与生成模型

1、文生视频

2、图生视频

3、视频编辑

五、向量模型

1、文本向量

2、多模态向量

六、行业模型

1、通义法睿

2、多模态向量

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云百炼AI大模型有哪些？文本、图片、语音、视频及向量模型大全

阿里云活动中心查看AI大模型

一、文本生成模型

1、通用大语言模型：

2、多模态模型

3、领域模型

二、图像生成模型

1、文生图

2、图像编辑

三、语音合成与识别模型

1、语音合成

2、语音识别/翻译

四、视频编辑与生成模型

1、文生视频

2、图生视频

3、视频编辑

五、向量模型

1、文本向量

2、多模态向量

六、行业模型

1、通义法睿

2、多模态向量

热门文章

最新文章

相关电子书