阿里云百炼大模型服务平台主要模型介绍：文本生成、图像与视频、音频与语音等热门模型与能力简介-阿里云开发者社区

阿里云百炼是一站式大模型开发与应用平台，集成千问及主流第三方模型。面向开发者提供兼容 OpenAI 的API和全链路模型服务；面向业务人员提供可视化应用构建能力，可快速创建智能体、知识库问答等 AI 应用。阿里云百炼提供千问及第三方模型服务，覆盖文本、图像、音频、视频等多种模态。无需自行部署或运维，可直接调用自研千问（Qwen）全系列模型，以及 DeepSeek、Kimi、GLM 等第三方大模型。

阿里云百炼全部模型.png

一、账号设置

1.注册账号：若无阿里云账号，需首先注册。
2.开通阿里云百炼：进入阿里云百炼大模型服务平台：https://www.aliyun.com/product/bailian 然后进入大模型服务平台百炼控制台，阅读并同意协议后，将自动开通阿里云百炼，如果未弹出服务协议，则表示您已经开通。

大模型控制台进入.png

3.获取API Key：前往API Key页面，单击创建API Key，即可通过API KEY调用大模型。

4.新用户免费额度
百炼为新用户提供北京地域专属的新人免费额度，用于体验模型调用。额度用完后自动转为按量付费。如需避免意外扣费，可开启免费额度用完即停功能，额度耗尽时服务自动停止。

二、文本生成主要模型及能力介绍

2.1 千问模型

从能力最强到成本最低，按需选择.

1、Qwen3.7-Max
Qwen3.7系列中规模最大、综合能力最强的Max模型，当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型，核心优势在于智能体能力的广度与深度：在编程、办公与生产力、长周期自主执行方面均能出色胜任各项任务。

2、Qwen3.6-Plus
Qwen3.6原生视觉语言系列Plus模型，展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果相较3.5系列显著提升。模型在Agentic coding、前端编程、Vibe coding等代码能力、多模态万物识别、OCR、物体定位等能力上显著增强。

3、Qwen3.6-Flash
Qwen3.6原生视觉语言系列Flash模型，模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力（在多项代码智能体基准上大幅超越前代）、数学推理和代码推理能力；视觉方面在空间智能能力上显著增强，物体定位与目标检测提升尤为突出。

2.2 三方模型

API 格式与千问模型一致。

1、DeepSeek-V4-Pro
旗舰级 MoE 大模型，总参1.6T、激活 49B，原生支持百万级超长上下文。依托海量高质量训练数据，具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力，适配高阶科研、复杂办公、深度智能代理等高难度场景。

2、DeepSeek-V4-Flash
高效轻量化MoE模型，总参284B，激活13B，原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉，综合能力均衡，主打高并发、轻量化任务，适合日常对话、内容创作、基础 RAG、批量文案处理等普惠刚需场景。

3、Kimi-K2.6
kimi-k2.6是Kimi最新最智能的模型，具备更强更稳的长程代码编写能力，指令遵循和自我纠错能力显著提升，同时支持文本、图片与视频输入，思考与非思考模式，对话与Agent任务。

4、GLM-5.1
GLM-5.1是智谱AI推出的面向长程任务（Long Horizon Task）设计的模型，总参数744B，支持200K超长上下文，最大输出 128K tokens。拥有强大逻辑推理、长文本理解与代码生成能力、兼顾性能与推理效率；在多任务基准中表现优异，适用于智能交互、企业应用、开发辅助等场景。

5、MiniMax/MiniMax-M2.7
M2.7 能够自行构建复杂 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力，完成高度复杂的生产力任务。

6、xiaomi/mimo-v2.5-pro
MiMo-V2.5-Pro 是小米发布的最新旗舰模型。与前代模型相比，它在通用智能体能力、复杂软件工程以及长程任务等方面都有显著提升，在 ClawEval、GDPVal 和 SWE-bench Pro 等基准测试中均位列前茅。它能够独立且完全自主地完成需要人类专家耗时数天甚至数周的专业任务，涉及上千次工具调用。其高达 100 万 token 的上下文长度，非常适合集成到各种智能体框架中使用。

三、图像与视频主要模型及能力介绍

3.1 理解

分析图片和视频内容，返回文本描述或结构化结果。热门模型包括Qwen3.6-Plus和Kimi-K2.6（上文已介绍），这里主要介绍一下Qwen3.5-Omni-Plus。
Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持超过 10 小时的音频理解及超过 400 秒的 720P（1 FPS）音视频理解与对话，并进一步拓展语言范围，支持60+种语言音频输入，30+语言语音输出，并且具备强大的结构化音视频理解能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态理解与交互体验。

3.2 生成

通过文本或图片生成图像与视频，支持编辑、参考与高分辨率输出。

1、Wan2.7-Image-Pro
万相2.7-图像生成与编辑旗舰版模型，支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循上都有更强表现。

2、Qwen-Image-2.0-Pro
Qwen-Image-2.0系列满血版模型，实现了图片生成和图片编辑的融合；具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感，细腻刻画写实场景、更强的语义遵循能力。满血版具备2.0系列最强的文字渲染能力和真实质感。

3、HappyHorse-1.0-T2V
HappyHorse-1.0-T2V支持文生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。

4、HappyHorse-1.0-I2V
HappyHorse-1.0-I2V支持图生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。

5、HappyHorse-1.0-R2V
HappyHorse-1.0-R2V支持参考生视频，更加稳定的主体与场景参考，支持最多9张图片参考，能够精准保持创作意图，实现更强表现能力。

6、HappyHorse-1.0-Video-Edit
HappyHorse-1.0-Video-Edit支持视频编辑，自然语言指令编辑视频，可参考最多5张图片局部或全局编辑视频元素，能够精准复刻视频动态过程，实现更强表现能力。

3.3 3D模型生成

文生3D模型或图生3D模型，构建三维资产。

1、Tripo-H3.1
Tripo H3.1 是 Tripo 推出的高精度 3D 生成模型，专为需要极致视觉质量与细节表现的创作者设计。模型通过核心算法升级与模块优化，参数规模达 200 亿级，支持十亿体素级三维分辨率与最高 200 万面多边形生成。在保持高精度几何与真实纹理的同时，Tripo H3.1 对输入参考图的还原度与对齐度进一步提升，在角色形体、面部细节与几何文字等复杂结构上实现更稳定、细致的表达，适用于高质量视觉制作与 3D 打印等高精度资产生产场景。

2、Tripo-P1.0
Tripo P1.0 是面向实时应用与生产管线的 3D 生成模型，专为需要干净拓扑和引擎可用网格的开发者与创作者设计。模型可在约 2 秒内生成具备专业级拓扑结构的 3D 资产，适用于游戏、Web3D 与各类实时交互场景。针对 UGC 内容生产中对“速度”和“开箱即用”的需求，Tripo P1.0 在保证质量的同时大幅提升生成效率，使资产能够快速接入实时引擎与开发流程。

四、音频与语音主要模型及能力介绍

4.1 语音合成

适用于有声阅读、语音播报、虚拟人等场景。

1、语音生成CosyVoice-v3.5-plus
CosyVoice-v3.5-Plus是通义实验室CosyVoice系列的超高表现力语音合成大模型。对声音克隆和声音设计的语音合成效果进行全面升级，确保说话人高相似度的前提下，支持free-style指令控制，合成风格丰富多样。较之前版本大幅减少首包延迟，同时提高发音准确率，改善韵律和音质。支持跨多语种（中、英、德、法、俄、日、韩、葡、泰、印尼、越南）超自然听感实时语音合成。

2、speech-2.8-hd
MiniMax 语音大模型能够根据上下文，智能预测文本的情绪、语调等信息，并生成超自然、高保真、个性化的语音。在社交、播客、有声书、新闻资讯、教育、数字人等多种场景中展现出强大的实力。

4.2 音乐生成

根据提示词或歌词生成音乐。

1、fun-music-v1
百聆音乐生成大模型（Fun音乐大模型）支持输入开放性歌曲的创作要求或歌词，生成整首男/女声演唱的中文或英文歌曲。歌曲通俗易懂，情绪由浅入深，是人类灵感与大模型能力的完美结合。

4.3 语音识别

专业 ASR 与大模型两种方案，按精度与灵活性选择。

1、Fun-ASR实时语音识别
通义实验室新一代端到端语音识别大模型的实时版，基于领先的自研语音技术，具备卓越的上下文感知和高精度语音转写能力。基于端到端架构，Fun-ASR 集成了创新的 RAG 技术，支持大规模热词自定义、敏感/语气词自动过滤、ITN 规范化、标点预测等多维功能，显著提升了整体识别准确率和语境贴合度。同时，Fun-ASR 支持中英文自由切换，多地区方言覆盖，具备更强的噪声鲁棒性，适应多样复杂环境。

2、Fun-ASR语音识别
百聆2026年4月更新的大模型ASR版本，全面支持汉语传统七大方言体系（官话/吴/湘/赣/客/闽/粤），并适配 20+ 地区口音官话。针对中文古诗词的韵律、节奏与文言表达特点进行专项优化，提升对古诗词内容的识别准确率，适用于文化传承、教育讲解、有声读物等场景。优化标点预测与文本归一化能力，使输出文本更符合书面表达习惯，数字、日期、金额等信息自动转换为标准格式，增强内容的可读性与专业性。同时语种扩展至英语、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语、印地语、阿拉伯语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等，共计30个语种。此版本等同于2025年11月7日的快照版本。

3、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持60+种语言音频输入，30+语言语音输出以及可控语音对话，WebSearch和复杂FunctionCall的调用，并且具备智能语义打断的交互能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态交互体验。

4、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持超过 10 小时的音频理解及超过 400 秒的 720P（1 FPS）音视频理解与对话，并进一步拓展语言范围，支持60+种语言音频输入，30+语言语音输出，并且具备强大的结构化音视频理解能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态理解与交互体验。

4.4 语音转语音

端到端语音对话，无需分别调用 ASR 和 TTS。

1、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持60+种语言音频输入，30+语言语音输出以及可控语音对话，WebSearch和复杂FunctionCall的调用，并且具备智能语义打断的交互能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态交互体验。

2、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持超过 10 小时的音频理解及超过 400 秒的 720P（1 FPS）音视频理解与对话，并进一步拓展语言范围，支持60+种语言音频输入，30+语言语音输出，并且具备强大的结构化音视频理解能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态理解与交互体验。

五、全模态

融合文本、图像、音频、视频等多种模态的理解与生成能力。目前主要模型为Qwen3.5-Omni-Plus-Realtime和Qwen3.5-Omni-Plus。模型具体能力上文已介绍。

六、向量与重排序

文本或图文向量化，配合重排序提升检索精度。

1、通用文本向量-v4
是通义实验室基于Qwen3训练的多语言文本统一向量模型，相较V3版本在文本检索、聚类、分类性能大幅提升；在MTEB多语言、中英、Code检索等评测任务上效果提升15%~40%；支持64~2048维用户自定义向量维度。

2、视觉向量-plus
Embedding-Vision是基于LLM底座的视觉多模态表征模型，具有以视觉为中心、领域性能优异（电商、安防、相册/图库、自驾等）、高性价比的特点。兼容文本、图像、视频3种模态，可应用于以图搜图、以文搜图、以文搜视频，以视频搜视频等下游任务场景。

3、千问3-Rerank
基于Qwen LLM底座训练的文本排序模型，对输入的Query和候选Docs进行相关性排序，支持100+语种和长文本输入，适用于文本检索、RAG等场景，效果对齐开源Qwen3-Rerank系列模型。

说明：以上仅为文本生成、图像与视频、音频与语音等热门模型与能力介绍，更多官方模型与第三方模型可通过百炼控制台查询。目前免费开通阿里云百炼即可享受享7000+万 tokens 限免体验和超30款 AI 产品免费试用，轻松构建 AI 应用。详情可通过阿里云AI产品免费试用活动了解：https://free.aliyun.com/product/ai

AI产品免费试用活动最新.png

附：2026年阿里云AI产品与云产品优惠权益参考：
AI 产品权益主要包括阿里云百炼 Token Plan，提供多档位套餐，包月预算可控；HappyHorse-1.0 系列模型限时 8 折；阿里云百炼 Token Plan，提供多档位套餐，包月预算可控；Qwen3.6全模型通享 4.5 折；Qwen3.7-Max 发布限时 5 折；阿里云百炼优惠券，先用后返，最高200元，个企同享；阿里云 JVS Claw 39元起，一键接入 OpenClaw等。而云产品权益主要有轻量应用服务器限时抢购2核2G38元/年、2核4G9.9元1个月、199元/年；通用算力型u2i实例3折，九代c9i、g9i、r9i等实例1年付6.4折起等优惠权益。详情可通过阿里云权益中心了解：https://www.aliyun.com/benefit

AI产品权益2026.png

小结：阿里云百炼作为一站式大模型开发与应用平台，依托千问（Qwen）全系列模型及DeepSeek、Kimi、GLM等主流第三方大模型，覆盖文本、图像、音频、视频等多模态能力，为开发者和业务人员提供了从模型调用到AI应用构建的全链路支持。无论是通过OpenAI兼容API快速接入大模型能力，还是借助可视化工具搭建智能体、知识库问答等应用，百炼都大幅降低了AI落地门槛。

阿里云百炼大模型服务平台主要模型介绍：文本生成、图像与视频、音频与语音等热门模型与能力简介