阿里云百炼大模型服务平台主要模型介绍:文本生成、图像与视频、音频与语音等热门模型与能力简介

简介: 阿里云百炼是阿里云推出的一站式大模型开发与应用平台,集成千问(Qwen)全系列及DeepSeek、Kimi、GLM、MiniMax等主流第三方大模型,覆盖文本、图像、音频、视频、向量等多模态能力。开发者可通过OpenAI兼容API直接调用模型,业务人员则可借助可视化工具快速搭建智能体、知识库问答等AI应用,无需自行部署运维。新用户注册开通即可获赠超7000万tokens免费额度,支持从模型体验到应用落地的流程服务,显著降低AI应用开发门槛。

阿里云百炼是一站式大模型开发与应用平台,集成千问及主流第三方模型。面向开发者提供兼容 OpenAI 的API和全链路模型服务;面向业务人员提供可视化应用构建能力,可快速创建智能体、知识库问答等 AI 应用。阿里云百炼提供千问及第三方模型服务,覆盖文本、图像、音频、视频等多种模态。无需自行部署或运维,可直接调用自研千问(Qwen)全系列模型,以及 DeepSeek、Kimi、GLM 等第三方大模型。

阿里云百炼全部模型.png

一、账号设置

1.注册账号:若无阿里云账号,需首先注册。
2.开通阿里云百炼:进入阿里云百炼大模型服务平台:https://www.aliyun.com/product/bailian 然后进入大模型服务平台百炼控制台,阅读并同意协议后,将自动开通阿里云百炼,如果未弹出服务协议,则表示您已经开通。

大模型控制台进入.png

3.获取API Key:前往API Key页面,单击创建API Key,即可通过API KEY调用大模型。

4.新用户免费额度
百炼为新用户提供北京地域专属的新人免费额度,用于体验模型调用。额度用完后自动转为按量付费。如需避免意外扣费,可开启免费额度用完即停功能,额度耗尽时服务自动停止。

二、文本生成主要模型及能力介绍

2.1 千问模型

从能力最强到成本最低,按需选择.

1、Qwen3.7-Max
Qwen3.7系列中规模最大、综合能力最强的Max模型,当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型,核心优势在于智能体能力的广度与深度:在编程、办公与生产力、长周期自主执行方面均能出色胜任各项任务。

2、Qwen3.6-Plus
Qwen3.6原生视觉语言系列Plus模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果相较3.5系列显著提升。模型在Agentic coding、前端编程、Vibe coding等代码能力、多模态万物识别、OCR、物体定位等能力上显著增强。

3、Qwen3.6-Flash
Qwen3.6原生视觉语言系列Flash模型,模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力(在多项代码智能体基准上大幅超越前代)、数学推理和代码推理能力;视觉方面在空间智能能力上显著增强,物体定位与目标检测提升尤为突出。

2.2 三方模型

API 格式与千问模型一致。

1、DeepSeek-V4-Pro
旗舰级 MoE 大模型,总参1.6T、激活 49B,原生支持百万级超长上下文。依托海量高质量训练数据,具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力,适配高阶科研、复杂办公、深度智能代理等高难度场景。

2、DeepSeek-V4-Flash
高效轻量化MoE模型,总参284B,激活13B,原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉,综合能力均衡,主打高并发、轻量化任务,适合日常对话、内容创作、基础 RAG、批量文案处理等普惠刚需场景。

3、Kimi-K2.6
kimi-k2.6是Kimi最新最智能的模型,具备更强更稳的长程代码编写能力,指令遵循和自我纠错能力显著提升,同时支持文本、图片与视频输入,思考与非思考模式,对话与Agent任务。

4、GLM-5.1
GLM-5.1是智谱AI推出的面向长程任务(Long Horizon Task)设计的模型,总参数744B,支持200K超长上下文,最大输出 128K tokens。拥有强大逻辑推理、长文本理解与代码生成能力、兼顾性能与推理效率;在多任务基准中表现优异,适用于智能交互、企业应用、开发辅助等场景。

5、MiniMax/MiniMax-M2.7
M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。

6、xiaomi/mimo-v2.5-pro
MiMo-V2.5-Pro 是小米发布的最新旗舰模型。与前代模型相比,它在通用智能体能力、复杂软件工程以及长程任务等方面都有显著提升,在 ClawEval、GDPVal 和 SWE-bench Pro 等基准测试中均位列前茅。它能够独立且完全自主地完成需要人类专家耗时数天甚至数周的专业任务,涉及上千次工具调用。其高达 100 万 token 的上下文长度,非常适合集成到各种智能体框架中使用。

三、图像与视频主要模型及能力介绍

3.1 理解

分析图片和视频内容,返回文本描述或结构化结果。热门模型包括Qwen3.6-Plus和Kimi-K2.6(上文已介绍),这里主要介绍一下Qwen3.5-Omni-Plus。
Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本, 支持超过 10 小时的音频理解及超过 400 秒的 720P(1 FPS)音视频理解与对话,并进一步拓展语言范围,支持60+种语言音频输入,30+语言语音输出,并且具备强大的结构化音视频理解能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态理解与交互体验。

3.2 生成

通过文本或图片生成图像与视频,支持编辑、参考与高分辨率输出。

1、Wan2.7-Image-Pro
万相2.7-图像生成与编辑旗舰版模型,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现。

2、Qwen-Image-2.0-Pro
Qwen-Image-2.0系列满血版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。满血版具备2.0系列最强的文字渲染能力和真实质感。

3、HappyHorse-1.0-T2V
HappyHorse-1.0-T2V支持文生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。

4、HappyHorse-1.0-I2V
HappyHorse-1.0-I2V支持图生视频,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。

5、HappyHorse-1.0-R2V
HappyHorse-1.0-R2V支持参考生视频,更加稳定的主体与场景参考,支持最多9张图片参考,能够精准保持创作意图,实现更强表现能力。

6、HappyHorse-1.0-Video-Edit
HappyHorse-1.0-Video-Edit支持视频编辑,自然语言指令编辑视频,可参考最多5张图片局部或全局编辑视频元素,能够精准复刻视频动态过程,实现更强表现能力。

3.3 3D模型生成

文生3D模型或图生3D模型,构建三维资产。

1、Tripo-H3.1
Tripo H3.1 是 Tripo 推出的高精度 3D 生成模型,专为需要极致视觉质量与细节表现的创作者设计。模型通过核心算法升级与模块优化,参数规模达 200 亿级,支持十亿体素级三维分辨率与最高 200 万面多边形生成。在保持高精度几何与真实纹理的同时,Tripo H3.1 对输入参考图的还原度与对齐度进一步提升,在角色形体、面部细节与几何文字等复杂结构上实现更稳定、细致的表达,适用于高质量视觉制作与 3D 打印等高精度资产生产场景。

2、Tripo-P1.0
Tripo P1.0 是面向实时应用与生产管线的 3D 生成模型,专为需要干净拓扑和引擎可用网格的开发者与创作者设计。模型可在约 2 秒内生成具备专业级拓扑结构的 3D 资产,适用于游戏、Web3D 与各类实时交互场景。针对 UGC 内容生产中对“速度”和“开箱即用”的需求,Tripo P1.0 在保证质量的同时大幅提升生成效率,使资产能够快速接入实时引擎与开发流程。

四、音频与语音主要模型及能力介绍

4.1 语音合成

适用于有声阅读、语音播报、虚拟人等场景。

1、语音生成CosyVoice-v3.5-plus
CosyVoice-v3.5-Plus是通义实验室CosyVoice系列的超高表现力语音合成大模型。对声音克隆和声音设计的语音合成效果进行全面升级,确保说话人高相似度的前提下,支持free-style指令控制,合成风格丰富多样。较之前版本大幅减少首包延迟,同时提高发音准确率,改善韵律和音质。支持跨多语种(中、英、德、法、俄、日、韩、葡、泰、印尼、越南)超自然听感实时语音合成。

2、speech-2.8-hd
MiniMax 语音大模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音。在社交、播客、有声书、新闻资讯、教育、数字人等多种场景中展现出强大的实力。

4.2 音乐生成

根据提示词或歌词生成音乐。

1、fun-music-v1
百聆音乐生成大模型(Fun音乐大模型)支持输入开放性歌曲的创作要求或歌词,生成整首男/女声演唱的中文或英文歌曲。歌曲通俗易懂,情绪由浅入深,是人类灵感与大模型能力的完美结合。

4.3 语音识别

专业 ASR 与大模型两种方案,按精度与灵活性选择。

1、Fun-ASR实时语音识别
通义实验室新一代端到端语音识别大模型的实时版,基于领先的自研语音技术,具备卓越的上下文感知和高精度语音转写能力。基于端到端架构,Fun-ASR 集成了创新的 RAG 技术,支持大规模热词自定义、敏感/语气词自动过滤、ITN 规范化、标点预测等多维功能,显著提升了整体识别准确率和语境贴合度。同时,Fun-ASR 支持中英文自由切换,多地区方言覆盖,具备更强的噪声鲁棒性,适应多样复杂环境。

2、Fun-ASR语音识别
百聆2026年4月更新的大模型ASR版本,全面支持汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),并适配 20+ 地区口音官话。针对中文古诗词的韵律、节奏与文言表达特点进行专项优化,提升对古诗词内容的识别准确率,适用于文化传承、教育讲解、有声读物等场景。优化标点预测与文本归一化能力,使输出文本更符合书面表达习惯,数字、日期、金额等信息自动转换为标准格式,增强内容的可读性与专业性。同时语种扩展至英语、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语、印地语、阿拉伯语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等,共计30个语种。此版本等同于2025年11月7日的快照版本。

3、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本,支持60+种语言音频输入,30+语言语音输出以及可控语音对话,WebSearch和复杂FunctionCall的调用,并且具备智能语义打断的交互能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态交互体验。

4、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本, 支持超过 10 小时的音频理解及超过 400 秒的 720P(1 FPS)音视频理解与对话,并进一步拓展语言范围,支持60+种语言音频输入,30+语言语音输出,并且具备强大的结构化音视频理解能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态理解与交互体验。

4.4 语音转语音

端到端语音对话,无需分别调用 ASR 和 TTS。

1、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本,支持60+种语言音频输入,30+语言语音输出以及可控语音对话,WebSearch和复杂FunctionCall的调用,并且具备智能语义打断的交互能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态交互体验。

2、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本, 支持超过 10 小时的音频理解及超过 400 秒的 720P(1 FPS)音视频理解与对话,并进一步拓展语言范围,支持60+种语言音频输入,30+语言语音输出,并且具备强大的结构化音视频理解能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态理解与交互体验。

五、全模态

融合文本、图像、音频、视频等多种模态的理解与生成能力。目前主要模型为Qwen3.5-Omni-Plus-Realtime和Qwen3.5-Omni-Plus。模型具体能力上文已介绍。

六、向量与重排序

文本或图文向量化,配合重排序提升检索精度。

1、通用文本向量-v4
是通义实验室基于Qwen3训练的多语言文本统一向量模型,相较V3版本在文本检索、聚类、分类性能大幅提升;在MTEB多语言、中英、Code检索等评测任务上效果提升15%~40%;支持64~2048维用户自定义向量维度。

2、视觉向量-plus
Embedding-Vision是基于LLM底座的视觉多模态表征模型,具有以视觉为中心、领域性能优异(电商、 安防、相册/图库、自驾等)、高性价比的特点。兼容文本、图像、视频3种模态,可应用于以图搜图、以文搜图、以文搜视频,以视频搜视频等下游任务场景。

3、千问3-Rerank
基于Qwen LLM底座训练的文本排序模型,对输入的Query和候选Docs进行相关性排序,支持100+语种和长文本输入,适用于文本检索、RAG等场景,效果对齐开源Qwen3-Rerank系列模型。

说明:以上仅为文本生成、图像与视频、音频与语音等热门模型与能力介绍,更多官方模型与第三方模型可通过百炼控制台查询。目前免费开通阿里云百炼即可享受享7000+万 tokens 限免体验和超30款 AI 产品免费试用,轻松构建 AI 应用。详情可通过阿里云AI产品免费试用活动了解:https://free.aliyun.com/product/ai

AI产品免费试用活动最新.png

附:2026年阿里云AI产品与云产品优惠权益参考:
AI 产品权益主要包括阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;HappyHorse-1.0 系列模型 限时 8 折;阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;Qwen3.6全模型通享 4.5 折;Qwen3.7-Max 发布 限时 5 折;阿里云百炼优惠券,先用后返,最高200元,个企同享;阿里云 JVS Claw 39元起,一键接入 OpenClaw等。而云产品权益主要有轻量应用服务器限时抢购2核2G38元/年、2核4G9.9元1个月、199元/年;通用算力型u2i实例3折,九代c9i、g9i、r9i等实例1年付6.4折起等优惠权益。详情可通过阿里云权益中心了解:https://www.aliyun.com/benefit

AI产品权益2026.png

小结:阿里云百炼作为一站式大模型开发与应用平台,依托千问(Qwen)全系列模型及DeepSeek、Kimi、GLM等主流第三方大模型,覆盖文本、图像、音频、视频等多模态能力,为开发者和业务人员提供了从模型调用到AI应用构建的全链路支持。无论是通过OpenAI兼容API快速接入大模型能力,还是借助可视化工具搭建智能体、知识库问答等应用,百炼都大幅降低了AI落地门槛。

相关文章
|
8天前
|
存储 人工智能 自然语言处理
2026年阿里云新老用户最新优惠活动:云服务器活动、免费试用活动、AI产品活动参考
阿里云2026新老用户优惠活动涵盖三大板块。云服务器方面,轻量应用服务器低至38元/年,经济型e实例99元/年,u1实例199元/年,限时限量抢购。免费试用方面,新老用户可领最高200元试用点,AI产品免费提供7000万+大模型tokens及30+款产品体验,140+云产品最长12个月免费试用。AI产品方面,百炼Token Plan支持多模型切换、多档套餐;HappyHorse视频生成模型限时8折;OpenClaw一键部署低至9.9元起。此外还提供折扣券、学生无门槛券、算力补贴等多类优惠券,整体以"普惠基础设施+零成本体验+智能化赋能"策略,全面降低上云与用AI门槛。
2026年阿里云新老用户最新优惠活动:云服务器活动、免费试用活动、AI产品活动参考
|
8天前
|
人工智能 自然语言处理 API
阿里云百炼Token Plan订阅方案:支持多模型灵活切换,兼容主流AI工具,多档位套餐,包月预算可控
阿里云百炼Token Plan团队版是面向企业及开发者的多模态AI订阅服务,采用Credits统一计量,支持Qwen3.6、Wan2.7、GLM-5、DeepSeek-V4、Kimi K2.6等十余款主流模型,兼容Qwen Code、Claude Code、OpenClaw等热门AI工具。提供标准版(198/月)、高级版(698/月)、尊享版(1,398/月)三档坐席,配套共享用量包(5,000/62.5万Credits)供弹性补额。计费按Token实际消耗抵扣,无频次限制,承诺不使用用户数据训练模型,多租户隔离保障稳定运行,适用于团队协作、开发办公等场景。
|
8天前
|
人工智能 缓存 自然语言处理
阿里云百炼AI通用型节省计划介绍:主要优势、折扣信息与续订及常见问题解答
阿里云百炼AI通用型节省计划是一种针对大模型按量付费的折扣方案。用户承诺一定期限内的月消费金额(3/6/12/24个月),即可享阶梯式折扣,最高5.3折。其核心优势:覆盖阿里直供全部模型(千问、万相、语音等),跨模型通用;承诺越高折扣越大;自动抵扣无需手动绑定,支持立即或指定时间生效。相比其他模型节省计划,通用型覆盖更广、折扣更高、管理更灵活。抵扣顺序为免费额度>资源包>其他节省计划>通用型>按量付费,三方直供模型(如DeepSeek、Kimi)不支持抵扣。建议长期多模型调用的企业和开发者优先选用。
|
8天前
|
存储 弹性计算 小程序
阿里云最便宜云服务器怎么选?38元/99元/199元机型性能全解析
阿里云推出38元/年、99元/年、199元/年三档高性价比云服务器,分别面向个人开发者、小微初创及中小企业。本文从配置、实测性能与适用场景三维度深度对比,助力大家轻松选择低成本上云!
209 4
|
2天前
|
人工智能 自然语言处理 监控
阿里云百炼千问Qwen3.7-Max全面解析:核心能力、技术特性与订阅使用全指南
在智能应用与AI智能体飞速发展的2026年,大模型的推理能力、长文本处理、多模态理解以及工具调用能力,已经成为企业开发、科研创作、自动化办公的核心刚需。阿里云百炼正式推出**Qwen3.7-Max**旗舰大模型,作为通义千问系列综合实力最强的版本,直接对标国际主流高端闭源大模型,专为复杂逻辑推理、长周期自主任务、多模态分析、企业级业务场景打造。
268 3
|
8天前
|
人工智能 弹性计算 API
阿里云轻量应用服务器低成本部署OpenClaw方案:2核2G38元,2核4G199元,全球多地域可选
2026年阿里云轻量应用服务器低成本部署OpenClaw AI助理的方案:用户可通过每天10:00和15:00的限量抢购活动,以38元/年(2核2G/40G云盘)或9.9元/月、199元/年(2核4G/50G云盘)的价格入手服务器,预装OpenClaw镜像实现分钟级一键部署,免代码上手。部署后可通过Web UI或飞书、钉钉、QQ、企业微信等IM工具与AI智能体交互,并支持扩展Skill和自定义RPA流程。方案覆盖个人博客、AI应用开发等场景,大幅降低了AI Agent的技术与资金门槛,是低成本拥抱AI智能体的实用路径。
|
29天前
|
编解码 人工智能 监控
阿里云百炼大模型HappyHorse介绍:功能与用途、适用场景与使用教程参考
阿里云百炼HappyHorse大模型服务平台,为用户提供文生视频、图生视频、参考生视频及视频编辑四大功能,支持高质量视频生成,适配广告、电商等多场景。该平台支持720P/1080P分辨率、3-15秒时长输出,具备有声支持、地域一致性校验及按秒计费(0.9元/秒起)等技术特性。用户可免费体验10秒视频生成,通过API配置实现智能创作,并遵循详细教程与地域化调用规范,高效完成视频生成与编辑工作流,赋能专业内容生产。
|
15天前
|
弹性计算 人工智能 运维
阿里云服务器2核2G怎么选择?轻量应用服务器38元与云服务器99元区别及选购策略参考
2026年阿里云两款热门2核2G入门级云服务器,轻量应用服务器38元/年,峰值200M带宽、40G ESSD云盘,预装OpenClaw等镜像,适合新用户快速部署AI应用,但仅限新用户抢购且续费价格高。云服务器ECS经济型e实例99元/年,固定3M带宽不限流量,新老用户同享且续费同价至2027年3月,适合长期稳定运营。追求极致首年性价比和快速上云选轻量,注重长期稳定和环境自定义选ECS,助力个人开发者与中小企业低门槛上云。
|
18天前
|
人工智能 IDE API
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
阿里云百炼Coding Plan是面向开发者和团队的AI编程订阅服务,采用固定月费模式,Pro套餐200元/月提供9万次调用额度,整合千问、Kimi、GLM、MiniMax等顶级模型,全面兼容Claude Code、OpenClaw、Cursor等主流编程工具。额度采用5小时滚动恢复、每周及每月定期重置机制,兼顾开发连续性与成本可控性。其折算成本远低于按量计费,并通过多层级额度设计和华北2地域绑定有效防范欠费风险。适合日常代码生成、智能体开发及IDE插件集成等场景,是开发者以可预期预算拥抱AI编程的高性价比选择。
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
|
16天前
|
人工智能 自然语言处理 安全
OpenClaw 小龙虾 AI 智能体 Windows 部署完整教程(2026 最新)
OpenClaw(小龙虾)是2026年爆火的开源AI智能体,GitHub星标超28万。支持本地运行、零代码配置、自动任务处理,专为新手设计——一键部署包+全程可视化操作,10分钟即可在Win10/11上搭建专属数字员工,解放重复办公!

热门文章

最新文章