本月核心升级速递
✅ 多模态工作流全面上线:工作流支持文档/图片/音视频上传,内置标准化解析节点自动完成内容识别、结构化提取与语义理解,实现端到端多模态数据处理。
✅ MCP体验与生态双升级:MCP广场回迁应用管理导航,Agent配置支持工具粒度选择及描述透出;新增 12 个云部署MCP服务(如通义万相2.6视频生成、AI内容检测工具),技能模块数量上限取消,智能体能力边界大幅拓展。
✅ 知识库交互重构与商业化:全新阿里云百炼风格统一,RAG切片管理高效可视化;阿里云百炼知识库(RAG)将于2026年1月4日00:00起正式商业化收费。
✅ 海量模板与模型爆发:应用广场上架146个开箱即用模板(如子弹时间特效、会议图文纪要、AI换装),模型广场新增24款模型(如Qwen-Image-Max、GLM-4.7、Wan2.6视频生成系列、Qwen3-ASR-Flash多语种识别等),全量模型用量监控功能同步上线,成本管控更精准。
🔔产品动态
1. MCP体验优化
- MCP广场从顶部导航栏回迁应用管理板块;
- Agent配置中,MCP支持选择到工具粒度,透出工具描述信息,控制更精准;
- Agent配置中,取消技能模块(MCP、插件、智能体/工作流组件)的添加数量上限;
- MCP增加版本更新记录,MCP广场上的服务发生安装包及配置文件更新时将提示用户及时升级;
2. 工作流全面支持多模态文件上传与智能解析
- 平台现已支持用户在工作流中直接上传文档、图片、音频、视频等多模态文件,并通过内置的标准化解析节点,自动完成内容识别、结构化提取与语义理解,实现端到端的多模态数据处理能力。
3. 知识库体验优化,知识管理能力升级
- 升级全新百炼知识库风格,交互体验全局统一;
- RAG切片管理与展示,更高效、清晰,灵活操作;
- 数据解析方式可视化,支持对不同数据类型进行自定义设置;
- 为提供更优质、稳定的服务,阿里云百炼知识库(RAG)将于2026年1月4日 00:00:00正式开启商业化收费。🔗知识库(RAG)商业化公告
4. 新增应用模板
应用模板名称 |
核心功能 |
稳定追踪手持物品,精准聚焦,画面平稳真实,背景静止,自然深度感 |
|
子弹时间特效,慢动作中360度环绕拍摄,动态模糊与精准定格结合,电影级视觉表现 |
|
倒悬世界,重力反转,梦境般扭曲空间中的稳定身影 |
|
镜头环绕人物缓慢推进,机械臂运镜,影视级动态聚焦与构图 |
|
360度流畅旋转人像,全身视角,电影级动态,细节清晰,稳定构图 |
|
特写镜头缓缓聚焦瞳孔,细腻纹理真实呈现,光影自然,慢速放大,纯光学模拟 |
|
延时摄影特效,流畅过渡,光影渐变,自然景观或建筑全景,慢速拉远,云动天移,真实时间流动。 |
|
快速拉远镜头,动态广角揭示场景全貌 |
|
镜头右弧滑动,流畅连续,主体始终在框内,自然柔和的曲线运动 |
|
手持镜头抖动,主体稳定,背景剧烈位移,增强真实临场感 |
|
希区柯克变焦特效,焦距拉长背景压缩,营造眩晕不安感 |
|
第一人称视角,镜头推进,动作自然,背景位移,沉浸空间感,画面稳定连贯 |
|
仰望天空意境特效,低角度推镜,人物静立抬头,光影自然过渡,聚焦头顶苍穹 |
|
镜头环绕人物逆时针旋转,俯视视角,人物居中,动态模糊增强流畅感 |
|
镜头缓缓推进,聚焦面部,运镜平稳流畅,表情坚定,主体清晰稳定 |
|
生成特效视频的工作流,特效描述:主体静止起步奔跑,跃起低空飞行。 |
|
对各种类型的文本进行细致的校对,不仅关注格式上的问题,还注重内容的真实性和逻辑性,并能够提出专业的修改建议。 |
|
图片创作,根据主题或者是用户的具体要求生成高质量、创意独特的图片。 |
|
专业的文案创作,擅长根据用户上传的文本段落或产品文档等,根据用户要求创作、续写和仿写文案。 |
|
从用户上传的文本段落或文档中识别并提取引用的文献信息, 支持多种文献类型,如书籍、期刊文章、会议论文、网页等。 |
|
接收用户提供的文本,检查常见的标点符号错误,如逗号、句号、问号、感叹号、引号等, 确保标点符号的使用符合语言规范和标准。 |
|
分析文本中的特征,如语言模式、语法结构、词汇选择等,以判断其是否由AI生成,修改AI生成的文本,以降低其被检测出的概率,并确保修改后的文本格式优美。 |
|
根据用户上传的文本生成简洁明了的摘要,可以主动调整摘要的长度,例如短摘要(50-100字)、中等摘要(100-300字)或长摘要(300-500字)。 |
|
将输入文本从源语言翻译成用户指定的目标语言, 支持多种语言,包括但不限于英语、中文、法语、德语、西班牙语等。 |
|
根据不同场景和需求对文本进行多语种的改写,以提升其可读性、自然度、专业度或吸引力。 |
|
识别并检查不同语种(如英语、法语、西班牙语等)的语法错误。 |
|
上传会议音视频(本地/链接),一键生成专业的图文纪要 |
|
上传本地或在线客户拜访视频,一键生成专业的会议纪要 |
|
综合判断视频是否由AI生成,遵循少数服从多数原则,输出客观、清晰的判定报告,适用于内容审核 |
|
综合判断图像是否由AI生成,遵循少数服从多数原则,输出客观、清晰的判定报告,适用于内容审核 |
|
支持从各类短剧视频中自动识别并提取人物台词,保留说话人信息与时间轴,适用于内容分析、字幕生成和剧本复现等场景 |
|
生成特效视频的工作流,特效描述:人物定格,背景动态,镜头固定,仿木头人效果 |
|
上传宠物照片,生成鱼眼镜头的特效视频 |
|
上传人物在车内的照片,生成模拟车辆移动感的特效视频 |
|
上传人物持物品照片,可以实现相机变焦点的特效视频 |
|
上传人物照片,生成人物呼气化祝福的特效视频 |
|
上传产品图,生成展示产品硬度比肩岩石的特效视频 |
|
上传人物照片,生成被箭头射中的有趣视频 |
|
上传产品照片,生成产品旋转打光特效视频 |
|
上传人物照片,生成剪影感特效视频 |
|
上传人物照片,生成人物在雪地有雪地简画的特效视频 |
|
上传猫咪照片,生成猫咪播音主持特效视频 |
|
上传照片,生成转化为油画感的特效视频 |
|
上传美食照片,生成美食呈现特效视频 |
|
上传宠物照片,生成宠物端汤圆特效视频 |
|
上传宠物照片,生成宠物打工特效视频 |
|
上传人物照片,生成毛绒钥匙扣特效视频 |
|
上传产品图,生成毛绒质感商品特效视频 |
|
上传人物照片,生成人物手持烟花棒的特效视频 |
|
上传建筑风景照,生成秋日氛围感油画特效视频 |
|
输入建筑场景照片,生成烟花绽放特效视频 |
|
输入人物照片,体验“马上有钱”视频特效 |
|
上传会议视频或分享链接,智能生成清晰、可读的文本纪要 |
|
上传本地或在线音视频,可以翻译为任意语言文本 |
|
上传面试音视频(本地/链接),一键输出专业面试分析报告 |
|
上传本地或在线学习视频,一键生成学习笔记 |
|
上传 PDF 文档到知识库后,可通过自然语言提问,快速获取文档中的关键信息。 |
|
基于多模态识别与结构化知识库,实现“拍题即答”,及时响应,精准可靠。 |
|
上传尺码图,直接提取关键信息,并结构化返回。 |
|
无需约模特,上传真人试穿图,一键换模特。 |
|
生成特效视频的工作流,特效描述:人物从中央渐消,衣衫化烟飘散。 |
|
适用于运维巡检、系统扩容与故障排查等场景。 |
|
世界倾斜变形,透视扭曲营造地球倾覆错觉。 |
|
人物缓缓浮空,镜头随动,背景虚化,呈现自然失重感。 |
|
钞票从身体迸发,席卷而至,人物被淹没,视觉冲击震撼。 |
|
冷蓝暗紫调,人物信号干扰,色彩失真,动态晃动,背景模糊。 |
|
镜头推进,人像对齐,次元交错,古典画廊中眼神交汇。 |
|
人物化作热气球乘客,缓缓升空,背景渐变云天,流畅升腾,唯美视觉盛宴。 |
|
忍者施展影分身术,烟雾与光芒中同步浮现多个克隆体,画面流畅震撼。 |
|
透明光晕气泡环绕主体缓缓上升,柔和旋转,光影流动如电影般真实。 |
|
人物瞬间冰封,半透明冰体透显轮廓,冰晶放射蔓延,通透坚硬,冷光微漾,静谧中蕴藏张力。 |
|
雨停瞬息,水滴悬浮,人物前行,光影凝滞,神秘宁静。 |
|
适用于照片美化、内容清理等场景。 |
|
根据用户需求,在图片中精确添加指定元素(如位置、大小、颜色) |
|
适用于写真、电商、社交分享等场景。 |
|
基于用户上传的图片与指定短剧角色,智能生成高还原度的角色换装效果。 |
|
基于剧本自动生成不超过15条专业分镜,涵盖镜头类型、画面描述、角色动作、对白旁白及时长,融合光影色彩构图设计,确保情感传达与视觉流畅性,适配影视前期制作需求。 |
|
基于实时搜索数据,自动生成涵盖悬疑、科幻、爱情等多题材的原创剧本灵感,每个包含背景、角色与关键情节,助力编剧快速破题、激发创作火花。 |
|
专为短视频平台打造高密度剧情,涵盖完整故事弧线、鲜明角色与强视觉场景。 |
|
支持创建3-5个短剧角色,涵盖基本信息、外貌、性格、背景与能力。 |
|
提供强视觉冲击分镜建议,适配竖屏拍摄,助力内容爆款。 |
|
输入一句话需求,自动生成适用于不同风格与场景的电商组合图片。 |
🍎模型动态
- 模型用量功能模块上新,模型列表中的所有模型均支持查看用量,包括基于它们调优后的模型。🔗模型用量体验
- 部分历史主线及快照版模型即将下线详细内容请参考:🔗主线模型下线公告、快照版模型下线公告
- 本月模型广场上架 24 个模型,详情如下。🔗模型体验
模型名称 |
类型 |
核心能力 |
适应场景 |
图像生成模型 |
相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。 |
适用于图片生成 |
|
图像生成模型 |
相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。此版本为2025年12月30日快照。 |
适用于 BN图片生成 |
|
文本生成模型 |
智谱最新旗舰,具备更强的编程能力与更稳定的多步骤推理/执行能力。总参数355B,支持长程任务规划、编码、工具协同,问答自然、写作沉浸、创意角色扮演能力强。 |
适用于代码编写、写作 |
|
图像编辑模型 |
本版提升角色一致性、工业设计及几何推理能力,优化编辑后图像与原图的空间布局、纹理及风格匹配度,编辑精度显著提升。 |
适用于图像编辑 |
|
图像生成 |
Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型,仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像,并在中英双语文本渲染、复杂语义理解和多样化主题生成上表现卓越。 |
适用于图片生成 |
|
视觉理解 |
Qwen3系列视觉理解模型,实现思考模式和非思考模式的有效融合。相较于9月23日快照,在推理及分析任务、风格控制上表现更优;同时拥有更低的延时和更快的响应速度。 |
适用于视觉理解、如图片识别 |
|
Qwen3-ASR-Flash-Realtime、Qwen3-ASR-Flash-Realtime-2025-10-27 |
语音识别 |
通义千问3-ASR-Flash的实时版,实现了高精度的语音识别功能,在复杂的音频环境下能够保证精确转录,新增捷克语、丹麦语等共 9 种语言的语音识别支持。 |
适用于多语言识别 |
语音识别 |
一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。实现了高精度的语音识别功能,能够自动判断语种并准确识别11个语种的语音,支持任意采样率和声道的音频。 |
适用于多语言识别 |
|
语音识别 |
通义百聆新一代多语言语音识别大模型,支持超过31种语言,支持语种自由切换,出海用户首推,尤其东南亚出海。 |
适用于多语言识别 |
|
视频生成 |
通义万相2.6-图生视频,智能分镜调度支持多镜头叙事,更高品质的声音生成,多人稳定对话,更自然真实音色,最高支持15秒时长生成。 |
适用于图生视频 |
|
视频生成 |
通义万相2.6-文生视频,全新参考生成功能,参考形象及音色生成。智能分镜调度支持多镜头叙事,更高品质的声音生成,最高支持15秒时长。 |
适用于文字生成视频 |
|
视频生成 |
通义万相2.6-参考生视频,支持指定人物或任意物品进行参考,精准保持形象和声音的一致性,支持多角色参考合拍。 |
适用于指定人物视频生成 |
|
图片生成 |
通义万相2.6-文生图,画面质感、美学表现、指令遵循升级,在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力,可生成高质量且富有表现力的视觉内容。 |
适用于艺术风格图片生成 |
|
图片生成 |
通义万相2.6-图像生成,全能图像生成模型,支持图文一体化推理生成,具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制,全面提升图像生成的一致性、可控性和表现力。 |
适用于图像生成、多图融合 |
|
声音设计 |
通义千问发布声音设计模型,通过文本描述生成定制化音色。结合qwen3-tts-vd-realtime-2025-12-16模型使用生成语音,覆盖 10 种语言。 |
适用于定制印色、多语言能力 |
|
语音合成 |
通义千问实时语音合成发布全新快照版模型,可使用声音设计生成的音色进行低延迟、高稳定性的实时合成;支持多语言输出;能根据文本自动调节语气,并优化复杂文本的合成表现。 |
适用于角色生成、声音设计 |
|
全模态模型 |
通义千问Omni发布的最新快照模型,支持的音色增加至49种,模型的指令跟随能力大幅升级。 |
适用于文本、图像、音频、视频理解 |
|
实时多模态 |
通义千问Omni 实时版发布的最新快照模型,提供了低延迟的多模态交互能力,支持的音色增加至49种,模型的指令跟随能力和交互体验大幅升级。 |
实时音视频聊天模型 |
|
qwen3-livetranslate-flash、qwen3-livetranslate-flash-2025-12-01 |
语音翻译 |
通义千问3-LiveTranslate-Flash 是音视频翻译模型,支持 18 种语言(包括中文、英文、俄文、法文等)互译,可结合视觉上下文提升翻译准确性,并输出文本与语音。 |
音视频翻译 |
推理模型 |
DeepSeek-V3.2是引入DeepSeek Sparse Attention(一种稀疏注意力机制)的正式版模型,也是DeepSeek推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。 |
内容创作、文本对话 |
🎉热门活动
👉12月应用实战:构建专属RAG智能体助手:https://developer.aliyun.com/special/sfm-chat-agent(完成任务未领奖的伙伴记着及时领奖哦!)