阿里云百炼产品月报【2025年12月】

简介: 阿里云百炼重磅升级:支持多模态文件上传与智能解析,MCP体验优化并新增12个云部署服务,知识库交互重构,上线146个应用模板及24款新模型,全面赋能AI应用开发。

image@1x (2).jpg

本月核心升级速递

✅ 多模态工作流全面上线:工作流支持文档/图片/音视频上传,内置标准化解析节点自动完成内容识别、结构化提取与语义理解,实现端到端多模态数据处理。

✅ MCP体验与生态双升级:MCP广场回迁应用管理导航,Agent配置支持工具粒度选择及描述透出;新增 12 个云部署MCP服务(如通义万相2.6视频生成、AI内容检测工具),技能模块数量上限取消,智能体能力边界大幅拓展。

✅ 知识库交互重构与商业化:全新阿里云百炼风格统一,RAG切片管理高效可视化;阿里云百炼知识库(RAG)将于2026年1月4日00:00起正式商业化收费。

✅ 海量模板与模型爆发:应用广场上架146个开箱即用模板(如子弹时间特效、会议图文纪要、AI换装),模型广场新增24款模型(如Qwen-Image-Max、GLM-4.7、Wan2.6视频生成系列、Qwen3-ASR-Flash多语种识别等),全量模型用量监控功能同步上线,成本管控更精准。

🔔产品动态

1. MCP体验优化

  • MCP广场从顶部导航栏回迁应用管理板块;
  • Agent配置中,MCP支持选择到工具粒度,透出工具描述信息,控制更精准;
  • Agent配置中,取消技能模块(MCP、插件、智能体/工作流组件)的添加数量上限;
  • MCP增加版本更新记录,MCP广场上的服务发生安装包及配置文件更新时将提示用户及时升级;

2. 工作流全面支持多模态文件上传与智能解析

  • 平台现已支持用户在工作流中直接上传文档、图片、音频、视频等多模态文件,并通过内置的标准化解析节点,自动完成内容识别、结构化提取与语义理解,实现端到端的多模态数据处理能力。

3. 知识库体验优化,知识管理能力升级

  • 升级全新百炼知识库风格,交互体验全局统一;
  • RAG切片管理与展示,更高效、清晰,灵活操作;
  • 数据解析方式可视化,支持对不同数据类型进行自定义设置;

  • 为提供更优质、稳定的服务,阿里云百炼知识库(RAG)将于2026年1月4日 00:00:00正式开启商业化收费。🔗知识库(RAG)商业化公告

4. 新增应用模板

  • MCP广场本月共上架 12 个云部署 MCP Server。欢迎直接开通体验。🔗MCP市场
  • 应用广场中本月上架 146 个应用模板。详情如下。🔗应用模板

应用模板名称

核心功能

稳定追踪拍摄

稳定追踪手持物品,精准聚焦,画面平稳真实,背景静止,自然深度感

子弹时间视界

子弹时间特效,慢动作中360度环绕拍摄,动态模糊与精准定格结合,电影级视觉表现

逆境世界

倒悬世界,重力反转,梦境般扭曲空间中的稳定身影

机械臂运镜

镜头环绕人物缓慢推进,机械臂运镜,影视级动态聚焦与构图

全景旋转人像

360度流畅旋转人像,全身视角,电影级动态,细节清晰,稳定构图

瞳孔聚焦

特写镜头缓缓聚焦瞳孔,细腻纹理真实呈现,光影自然,慢速放大,纯光学模拟

延时拍摄

延时摄影特效,流畅过渡,光影渐变,自然景观或建筑全景,慢速拉远,云动天移,真实时间流动。

全景拉远

快速拉远镜头,动态广角揭示场景全貌

右弧平移追踪

镜头右弧滑动,流畅连续,主体始终在框内,自然柔和的曲线运动

手持抖动增强

手持镜头抖动,主体稳定,背景剧烈位移,增强真实临场感

希区柯克变焦

希区柯克变焦特效,焦距拉长背景压缩,营造眩晕不安感

沉浸视界

第一人称视角,镜头推进,动作自然,背景位移,沉浸空间感,画面稳定连贯

仰望苍穹

仰望天空意境特效,低角度推镜,人物静立抬头,光影自然过渡,聚焦头顶苍穹

镜头环绕旋转

镜头环绕人物逆时针旋转,俯视视角,人物居中,动态模糊增强流畅感

面部聚焦推镜

镜头缓缓推进,聚焦面部,运镜平稳流畅,表情坚定,主体清晰稳定

低空飞行

生成特效视频的工作流,特效描述:主体静止起步奔跑,跃起低空飞行。

文本校对

对各种类型的文本进行细致的校对,不仅关注格式上的问题,还注重内容的真实性和逻辑性,并能够提出专业的修改建议。

图片创作

图片创作,根据主题或者是用户的具体要求生成高质量、创意独特的图片。

参考素材创作(仿写)

专业的文案创作,擅长根据用户上传的文本段落或产品文档等,根据用户要求创作、续写和仿写文案。

参考文献自动生成器

从用户上传的文本段落或文档中识别并提取引用的文献信息, 支持多种文献类型,如书籍、期刊文章、会议论文、网页等。

标点符号检查

接收用户提供的文本,检查常见的标点符号错误,如逗号、句号、问号、感叹号、引号等, 确保标点符号的使用符合语言规范和标准。

AI内容检测工具

分析文本中的特征,如语言模式、语法结构、词汇选择等,以判断其是否由AI生成,修改AI生成的文本,以降低其被检测出的概率,并确保修改后的文本格式优美。

摘要总结

根据用户上传的文本生成简洁明了的摘要,可以主动调整摘要的长度,例如短摘要(50-100字)、中等摘要(100-300字)或长摘要(300-500字)。

在线翻译

将输入文本从源语言翻译成用户指定的目标语言, 支持多种语言,包括但不限于英语、中文、法语、德语、西班牙语等。

改写润色

根据不同场景和需求对文本进行多语种的改写,以提升其可读性、自然度、专业度或吸引力。

语法检查器

识别并检查不同语种(如英语、法语、西班牙语等)的语法错误。

会议图文纪要

上传会议音视频(本地/链接),一键生成专业的图文纪要

客户拜访纪要

上传本地或在线客户拜访视频,一键生成专业的会议纪要

AI视频检测工具

综合判断视频是否由AI生成,遵循少数服从多数原则,输出客观、清晰的判定报告,适用于内容审核

AI图片检测工具

综合判断图像是否由AI生成,遵循少数服从多数原则,输出客观、清晰的判定报告,适用于内容审核

视频台词提取(短剧)

支持从各类短剧视频中自动识别并提取人物台词,保留说话人信息与时间轴,适用于内容分析、字幕生成和剧本复现等场景

木头人定格

生成特效视频的工作流,特效描述:人物定格,背景动态,镜头固定,仿木头人效果

萌宠鱼眼镜头

上传宠物照片,生成鱼眼镜头的特效视频

车内视界

上传人物在车内的照片,生成模拟车辆移动感的特效视频

焦点滑移

上传人物持物品照片,可以实现相机变焦点的特效视频

新年呼气祝福

上传人物照片,生成人物呼气化祝福的特效视频

极速撞击展示

上传产品图,生成展示产品硬度比肩岩石的特效视频

箭雨冲击

上传人物照片,生成被箭头射中的有趣视频

产品打光展示

上传产品照片,生成产品旋转打光特效视频

人物剪影感

上传人物照片,生成剪影感特效视频

雪境留痕

上传人物照片,生成人物在雪地有雪地简画的特效视频

喵播时光

上传猫咪照片,生成猫咪播音主持特效视频

油画笔触质感

上传照片,生成转化为油画感的特效视频

美食呈现

上传美食照片,生成美食呈现特效视频

宠物汤圆

上传宠物照片,生成宠物端汤圆特效视频

宠物工位照

上传宠物照片,生成宠物打工特效视频

化身绒萌钥匙扣

上传人物照片,生成毛绒钥匙扣特效视频

产品变毛绒绒

上传产品图,生成毛绒质感商品特效视频

点燃烟花

上传人物照片,生成人物手持烟花棒的特效视频

油画秋韵

上传建筑风景照,生成秋日氛围感油画特效视频

烟花绽放

输入建筑场景照片,生成烟花绽放特效视频

马上有钱

输入人物照片,体验“马上有钱”视频特效

会议文本纪要

上传会议视频或分享链接,智能生成清晰、可读的文本纪要

音视频转文本

上传本地或在线音视频,可以翻译为任意语言文本

面试报告

上传面试音视频(本地/链接),一键输出专业面试分析报告

学习笔记生成

上传本地或在线学习视频,一键生成学习笔记

ChatPDF 企业知识库问答

上传 PDF 文档到知识库后,可通过自然语言提问,快速获取文档中的关键信息。

拍照搜题

基于多模态识别与结构化知识库,实现“拍题即答”,及时响应,精准可靠。

尺码信息提取

上传尺码图,直接提取关键信息,并结构化返回。

真人换模特

无需约模特,上传真人试穿图,一键换模特。

幻影消融

生成特效视频的工作流,特效描述:人物从中央渐消,衣衫化烟飘散。

RabbitMQ消息队列助手

适用于运维巡检、系统扩容与故障排查等场景。

地球倾斜视效

世界倾斜变形,透视扭曲营造地球倾覆错觉。

浮空律动

人物缓缓浮空,镜头随动,背景虚化,呈现自然失重感。

钞票风暴

钞票从身体迸发,席卷而至,人物被淹没,视觉冲击震撼。

冷蓝信号失真

冷蓝暗紫调,人物信号干扰,色彩失真,动态晃动,背景模糊。

镜像画廊

镜头推进,人像对齐,次元交错,古典画廊中眼神交汇。

热气球升空

人物化作热气球乘客,缓缓升空,背景渐变云天,流畅升腾,唯美视觉盛宴。

影分身幻术

忍者施展影分身术,烟雾与光芒中同步浮现多个克隆体,画面流畅震撼。

泡泡升腾

透明光晕气泡环绕主体缓缓上升,柔和旋转,光影流动如电影般真实。

冰封瞬凝

人物瞬间冰封,半透明冰体透显轮廓,冰晶放射蔓延,通透坚硬,冷光微漾,静谧中蕴藏张力。

雨水悬浮

雨停瞬息,水滴悬浮,人物前行,光影凝滞,神秘宁静。

移除图片元素-短剧

适用于照片美化、内容清理等场景。

添加图片元素-短剧

根据用户需求,在图片中精确添加指定元素(如位置、大小、颜色)

修改图片角色身材-短剧

适用于写真、电商、社交分享等场景。

AI换装-短剧

基于用户上传的图片与指定短剧角色,智能生成高还原度的角色换装效果。

短剧分镜文案拆解

基于剧本自动生成不超过15条专业分镜,涵盖镜头类型、画面描述、角色动作、对白旁白及时长,融合光影色彩构图设计,确保情感传达与视觉流畅性,适配影视前期制作需求。

剧本灵感生成器

基于实时搜索数据,自动生成涵盖悬疑、科幻、爱情等多题材的原创剧本灵感,每个包含背景、角色与关键情节,助力编剧快速破题、激发创作火花。

剧本扩写

专为短视频平台打造高密度剧情,涵盖完整故事弧线、鲜明角色与强视觉场景。

短剧角色生成

支持创建3-5个短剧角色,涵盖基本信息、外貌、性格、背景与能力。

AI生成短剧剧本

提供强视觉冲击分镜建议,适配竖屏拍摄,助力内容爆款。

多场景电商组图

输入一句话需求,自动生成适用于不同风格与场景的电商组合图片。

🍎模型动态

模型名称

类型

核心能力

适应场景

Qwen-Image-Max

图像生成模型

相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。

适用于图片生成

Qwen-Image-Max-2025-12-30

图像生成模型

相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。此版本为2025年12月30日快照。

适用于 BN图片生成

GLM-4.7

文本生成模型

智谱最新旗舰,具备更强的编程能力与更稳定的多步骤推理/执行能力。总参数355B,支持长程任务规划、编码、工具协同,问答自然、写作沉浸、创意角色扮演能力强。

适用于代码编写、写作

Qwen-Image-Edit-Plus-2025-12-15

图像编辑模型

本版提升角色一致性、工业设计及几何推理能力,优化编辑后图像与原图的空间布局、纹理及风格匹配度,编辑精度显著提升

适用于图像编辑

Z-Image-Turbo

图像生成

Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型,仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像,并在中英双语文本渲染、复杂语义理解和多样化主题生成上表现卓越。

适用于图片生成

Qwen3-VL-Plus-2025-12-19(快照版)

视觉理解

Qwen3系列视觉理解模型,实现思考模式和非思考模式的有效融合。相较于9月23日快照,在推理及分析任务、风格控制上表现更优;同时拥有更低的延时和更快的响应速度。

适用于视觉理解、如图片识别

Qwen3-ASR-Flash-Realtime、Qwen3-ASR-Flash-Realtime-2025-10-27

语音识别

通义千问3-ASR-Flash的实时版,实现了高精度的语音识别功能,在复杂的音频环境下能够保证精确转录,新增捷克语、丹麦语等共 9 种语言的语音识别支持。

适用于多语言识别

Qwen3-ASR-Flash、Qwen3-ASR-Flash-2025-09-08

语音识别

一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。实现了高精度的语音识别功能,能够自动判断语种并准确识别11个语种的语音,支持任意采样率和声道的音频。

适用于多语言识别

Fun-ASR-Mtl、Fun-ASR-Mtl-2025-08-25

语音识别

通义百聆新一代多语言语音识别大模型,支持超过31种语言,支持语种自由切换,出海用户首推,尤其东南亚出海。

适用于多语言识别

Wan2.6-I2V

视频生成

通义万相2.6-图生视频,智能分镜调度支持多镜头叙事,更高品质的声音生成,多人稳定对话,更自然真实音色,最高支持15秒时长生成。

适用于图生视频

Wan2.6-T2V

视频生成

通义万相2.6-文生视频,全新参考生成功能,参考形象及音色生成。智能分镜调度支持多镜头叙事,更高品质的声音生成,最高支持15秒时长。

适用于文字生成视频

Wan2.6-R2V

视频生成

通义万相2.6-参考生视频,支持指定人物或任意物品进行参考,精准保持形象和声音的一致性,支持多角色参考合拍。

适用于指定人物视频生成

Wan2.6-T2I

图片生成

通义万相2.6-文生图,画面质感、美学表现、指令遵循升级,在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力,可生成高质量且富有表现力的视觉内容。

适用于艺术风格图片生成

Wan2.6-Image

图片生成

通义万相2.6-图像生成,全能图像生成模型,支持图文一体化推理生成,具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制,全面提升图像生成的一致性、可控性和表现力。

适用于图像生成、多图融合

Qwen-Voice-Design

声音设计

通义千问发布声音设计模型,通过文本描述生成定制化音色。结合qwen3-tts-vd-realtime-2025-12-16模型使用生成语音,覆盖 10 种语言。

适用于定制印色、多语言能力

Qwen3-TTS-VD-Realtime-2025-12-16(快照版)

语音合成

通义千问实时语音合成发布全新快照版模型,可使用声音设计生成的音色进行低延迟、高稳定性的实时合成;支持多语言输出;能根据文本自动调节语气,并优化复杂文本的合成表现。

适用于角色生成、声音设计

qwen3-omni-flash-2025-12-01

全模态模型

通义千问Omni发布的最新快照模型,支持的音色增加至49种,模型的指令跟随能力大幅升级。

适用于文本、图像、音频、视频理解

qwen3-omni-flash-realtime-2025-12-01

实时多模态

通义千问Omni 实时版发布的最新快照模型,提供了低延迟的多模态交互能力,支持的音色增加至49种,模型的指令跟随能力和交互体验大幅升级。

实时音视频聊天模型

qwen3-livetranslate-flashqwen3-livetranslate-flash-2025-12-01

语音翻译

通义千问3-LiveTranslate-Flash 是音视频翻译模型,支持 18 种语言(包括中文、英文、俄文、法文等)互译,可结合视觉上下文提升翻译准确性,并输出文本与语音。

音视频翻译

deepseek-v3.2

推理模型

DeepSeek-V3.2是引入DeepSeek Sparse Attention(一种稀疏注意力机制)的正式版模型,也是DeepSeek推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。

内容创作、文本对话

🎉热门活动

👉12月应用实战:构建专属RAG智能体助手:https://developer.aliyun.com/special/sfm-chat-agent完成任务未领奖的伙伴记着及时领奖哦!

🥇精选好文

相关文章
|
15天前
|
人工智能 安全 搜索推荐
钉钉发布全球首个工作智能操作系统Agent OS,专为AI打造
2025年12月23日,钉钉在杭州发布AI钉钉1.1“木兰”版本,推出全球首个为AI打造的工作智能操作系统——Agent OS,开启“人与AI协同”新范式。通过钉钉ONE、DingTalk Real、AI搜问、悟空Agent及DEAP平台等构建完整AI协作体系,实现AI直连物理世界。发布会推出超20款AI产品,涵盖制造、差旅、客服等场景,全面升级AI表格、AI听记、DingTalk A1,助力企业零门槛迈向AI原生办公。
296 10
|
1月前
|
SQL 人工智能 缓存
阿里云百炼产品月刊【2025年11月】
通义千问本月重磅升级:上线10款多模态与语音模型,涵盖ASR、TTS、视觉语言及翻译;MCP市场新增3个云服务,上架24个电商应用模板;推出实训Agent创客活动,助力高效生成电商视觉内容。
665 10
|
人工智能 自然语言处理 大数据
阿里云百炼,带你搭建外贸图片翻译助手智能体 从阿里云OpenAPI导入机器翻译API,实现OpenAPI自定义MCP
阿里云提供一站式内容本地化解决方案,涵盖图文视频多模态翻译。通过机器翻译、图片诊断、标题优化等API,助力跨境电商高效实现商品信息多语言智能转换与优化,降低人工成本,提升出海效率。
408 0
|
人工智能 移动开发 自然语言处理
阿里云百炼产品月刊【2025年9月】
本月通义千问模型大升级,新增多模态、语音、视频生成等高性能模型,支持图文理解、端到端视频生成。官网改版上线全新体验中心,推出高代码应用与智能体多模态知识融合,RAG能力增强,助力企业高效部署AI应用。
1106 0
|
3月前
|
自然语言处理 测试技术 API
通义Qwen3-Max:大就是好
通义千问Qwen3-Max正式发布,参数超1T,训练稳定高效,在代码、推理、多语言等任务中表现卓越。预览版已登顶LMArena榜单前三,支持阿里云百炼API调用与Qwen Chat体验,敬请试用。
2088 32