⚽阿里云百炼通义万相 2.6 视频生成玩法手册

简介: 通义万相Wan 2.6是全球首个支持角色扮演的AI视频生成模型,可基于参考视频形象与音色生成多角色合拍、多镜头叙事的15秒长视频,实现声画同步、智能分镜,适用于影视创作、营销展示等场景。

*本文章结果视频均由wan2.6生成



🌟 模型亮点速览

通义万相 2.6 系列视频生成模型,面向专业影视创作全面升级,国内首个支持角色扮演功能的视频模型!

相较前一代 Wan 2.5 - Preview 系列模型,本次升级支持全新视频参考生成功能,可将人或任意物作为主角,生成单人表演或多人合拍。模型还支持多镜头叙事、智能调度镜头,多人对话更稳定、一次性生成更长时长、更强的指令遵循和声画同步。

  • 角色扮演:万物皆可为主演。参考输入视频的形象和音色,实现角色扮演,用 prompt 让角色出演你的剧本。支持人或任意物体作为主角,支持单主体或多主体合拍
  • 智能分镜叙事:一句话生成多镜头视频。只要输入简单prompt描述,模型自动拆解为多镜头,如包含特写(眼神)、中景(动作)、全景(环境),并保持角色、服装、情绪等一致
  • 15秒长视频+自然声画同步生成最长15秒的连贯视频,包含入场、互动、离场等完整叙事结构,不再是碎片化动作。角色不仅能动嘴,更能带情感说话。人声富有情绪,口型精准匹配,支持多人自然对话



📖 模型详情信息

模型名称

模型特色

输入输出

计费单价

免费额度 & 节省计划

文生视频

Wan2.6-T2V

基于文本提示词,生成一段流畅的视频。支持的能力包括:

  • 基础能力:支持选择视频时长(5/10/15秒)、指定视频分辨率(720P/1080P)、智能改写prompt、添加水印。
  • 音频能力:支持自动配音,或传入自定义音频文件,实现声画同步。
  • 多镜头叙事:支持生成包含多个镜头的视频,在镜头切换的同时保持主体一致。

API参考

分辨率档位:720P、1080P

视频时长:5秒、10秒、15秒

固定规格:30fps、MP4 (H.264编码) 

文字 → 视频

720P:0.6元/秒

1080P:1元/秒

免费额度:50秒

有效期限:阿里云百炼开通后90天内

图生视频

Wan2.6-I2V

根据首帧图像和文本提示词,生成一段流畅的视频。支持的能力包括:

  • 基础能力:支持选择视频时长(5秒/10秒/15秒)、指定视频分辨率(720P/1080P)、智能改写prompt、添加水印。
  • 音频能力:支持自动配音,或传入自定义音频文件,实现声画同步。
  • 多镜头叙事:支持生成包含多个镜头的视频,在镜头切换时保持主体一致性。

API参考

分辨率档位:720P、1080P

视频时长:5秒、10秒、15秒

固定规格:30fps、MP4 (H.264编码)

图片 + 文字 + 音频(可选) → 视频

720P:0.6元/秒

1080P:1元/秒

参考生视频🌟

Wan2.6-R2V

参考输入视频中的角色形象和音色,搭配提示词生成保持角色一致性的视频。支持的能力包括:

  • 基础能力:支持选择视频时长(5/10秒)、指定视频分辨率(720P/1080P)、添加水印。
  • 音频能力:支持通过提示词生成声音,可参考输入视频的音色。
  • 多镜头叙事:支持生成包含多个镜头的视频,并且在镜头切换时,保持主体一致性。

API参考

分辨率档位:720P、1080P

视频时长:5秒、10秒

固定规格:30fps、MP4 (H.264编码) 

视频 + 文字 + 音频(可选)→ 视频

720P:0.6元/秒

1080P:1元/秒


🎨 场景应用玩法

① 角色扮演【国内首家】

目前 wan2.6-r2v 尚不支持在百炼的模型体验,仅可通过 API 方式调用。

为了更好的参考生成,输入参考视频 Tips:

视频需突出主体。角色是人的话,面部清楚+有声音

2-30s 视频均可以(需注意输入视频的秒数会产生计费)

单人角色表演:基于参考视频中的角色在不同场景中展现完整表演,适用于个人品牌、产品代言、教育培训等。

demo:

提示词:赛博朋克圣诞主题电影。Character1穿黑色皮夹克、戴圣诞帽,和一位穿传统圣诞老人服装的白胡子老人一起并肩作战,两人都手持枪支,背景是科幻风格的太空船内部(金属墙壁、发光灯带、走廊结构)

效果:

提示词:展示一款新型口红的质地、色彩和持久度。

第1个镜头[0-2秒] character1面对镜子,手持口红管,准备涂抹。

第2个镜头[2-4秒] 特写镜头,口红在嘴唇上均匀涂抹,展现丝滑质地。

第3个镜头[4-6秒] character1喝水后,嘴唇依然保持完美妆容,展示持久性。

第4个镜头[6-10秒] character1自信地对着镜头微笑,整体妆容精致,突出口红的色彩魅力。

效果:

提示词:展示最新款智能手表的多功能性和时尚设计。

第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。

第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。

第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。

第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。

效果:

提示词:专业健身教练演示正确的运动姿势和呼吸技巧。

第1个镜头[0-2秒] character1站在健身房中,穿着专业运动服,准备开始教学。

第2个镜头[3-6秒] character1演示深蹲动作,同时讲解:"保持背部挺直,膝盖不要超过脚尖。"

第3个镜头[6-8秒] 特写镜头展示正确的呼吸节奏和核心收紧状态。

第4个镜头[8-10秒] character1对着镜头微笑鼓励:"坚持练习,你也能做到!

效果:

提示词:将character1转化为圣诞树造型。视频开头,电梯门打开,展示 character 1 的圣诞树造型

效果:

多人角色互动:支持最多三个角色合拍,生成自然对话和互动,适用于访谈、对话、教学等场景。

demo:

提示词:这是一个关于真挚友谊如何帮助人们度过困难时期的温馨故事。

第1个镜头[0-2秒] character1独自坐在公园长椅上,低头看着手机,表情沮丧。

第2个镜头[2-4秒] character2从远处跑来,手里拿着两杯咖啡,脸上带着温暖的笑容。

第3个镜头[4-7秒] 两人并肩坐在长椅上,character2轻轻拍拍character1的肩膀,两人开始愉快地交谈。

第4个镜头[7-10秒] 镜头拉远,展现两人在夕阳下的剪影,友谊的温暖氛围弥漫整个画面。

效果:

提示词:现代工业风录音室,砖墙覆盖声学吸音板,设备齐全。

坐着对话筒发言的是character 1,对面是手持话筒的Character2。

Character1说: “Today we're excited to have Dr. Sarah from Tonyi Lab. Sarah, your research on video generation model is groundbreaking.”

紧接着 Character 2 回应:“Thank you for having me.”镜头在两人间切换。

效果:

demo:

提示词:一段温馨有趣的宠物短视频。

第1个镜头[0-2秒] character1对着镜头微笑挥手,背景是充满活力的城市街道。

第2个镜头[2-4秒] 突然一只可爱的狗狗 character2从画面外跳入,扑向年轻人。

第3个镜头[4-6秒] character1和character2开心互动,狗狗character2摇尾巴,character1抚摸character2的头。

第4个镜头[6-8秒] 镜头切换到狗狗character2的视角,展现它眼中的主人character1。

第5个镜头[8-10秒] character1和character2合影,营造温馨欢乐的氛围。

效果:

附:Wan2.6-R2V 调用示例代码

步骤一:参考视频的主体和音色,根据prompt生成新的视频。
curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v",
    "input": {
        "prompt": "展示最新款智能手表的多功能性和时尚设计。第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。",
        "reference_video_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1920*1080",
        "duration": 10,
        "audio": true,
        "prompt_extend": true,
        "shot_type":"multi"
    }
}'
步骤二:查询生成结果(预计需要等待 5+ 分钟)
请保存步骤一生成的 task_id,用于查询任务状态与结果。
{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}
步骤三:查询生成结果(预计需要等待 5+ 分钟)
请将86ecf553-d340-4e21-xxxxxxxxx替换为真实的task_id。
curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"


智能分镜叙事 & 15s 长视频生成

 影视级多镜头创作:利用智能分镜功能,自动生成包含特写、中景、全景的专业级镜头组合。

demo:

提示词

一段紧张刺激的侦探追查故事,展现电影级叙事能力。

第1个镜头[0-3秒] 全景:雨夜的纽约街头,霓虹灯闪烁,一位身穿黑色风衣的侦探快步行走。

第2个镜头[3-6秒] 中景:侦探进入一栋老旧建筑,雨水打湿了他的外套,门在他身后缓缓关闭。

第3个镜头[6-9秒] 特写:侦探的眼神坚毅专注,远处传来警笛声,他微微皱眉思考。

第4个镜头[9-12秒] 中景:侦探在昏暗走廊中小心前行,手电筒照亮前方。

第5个镜头[12-15秒] 特写:侦探发现关键线索,脸上露出恍然大悟的表情。

效果:

提示词

展现未来科技与自然和谐共存的美好愿景。

第1个镜头[0-2秒] 未来城市的空中花园全景,悬浮植物在微风中摇曳。

第2个镜头[2-4秒] 机器人园丁正在精心修剪植物,动作精准而优雅。

第3个镜头[4-7秒] 阳光透过透明穹顶洒下,照亮整个花园,展现科技与自然的完美融合。

第4个镜头[7-10秒] 镜头拉远,展现整个未来城市的壮观景象,空中花园只是其中的一部分。

效果:

产品营销智能展示:通过智能分镜自动展示产品的多个角度和使用场景。

demo:

提示词

展现跑车的速度与激情。

第1个镜头[0-2秒] 红色跑车停在蜿蜒山路的起点,引擎低沉轰鸣。

第2个镜头[2-6秒] 车辆开始加速,轮胎与路面摩擦产生轻微烟雾。

第3个镜头[6-8秒] 车内视角,驾驶员专注地操控方向盘,速度表指针快速上升。

第4个镜头[6-9秒] 航拍视角,跑车在山路上疾驰,展现优美的车身线条。

第5个镜头[9-15秒] 车辆停在山顶,俯瞰壮丽景色,突出驾驶体验的完美。

效果:

提示词

镜头1:特写镜头,梁和侧光突显光泽紫葡萄(饱满圆润,色泽诱人)从上方落入水中+清澈水面五起层层淮漪和水花清新灵动,定格在葡萄入水瞬间,水花飞溅,晶莹水珠四散,光影在葡萄与水面间闪烁,展现自然清新且充满活力的画面;

镜头2:固定特写,柔和散射光,带水珠易拉罐 (淡紫色罐体,紫色 "Wan"字样和葡萄图案)轻微晃动,水珠滑落,渐变紫色背景,清新凉爽;

镜头3:缓慢推近镜头,明亮自然光线,带水珠易拉罐 (淡紫色罐体,紫色 "Wan"字样和葡萄图案)轻微旋转,水珠闪耀,散落紫葡萄与蓝天背景,清新活力,镜头逐渐聚焦罐体,光影下易拉罐旋转,水珠闪烁,营造出充满活力与清爽的氛围。

效果:

多语言声画同步:支持多语言配音,口型精准匹配,适用于国际化内容创作。

demo:

提示词

In a cozy Tokyo café, a young woman smiles and says in clear Japanese: “このコーヒー、すごく美味しいですね!” (“This coffee is really delicious!”). Her friend replies: “でしょう?ここで豆を焙煎してるんだよ。” (“Right? They roast their beans here.”). Natural lighting, shallow depth of field. Dual subtitles appear: Japanese (top) + English (bottom), synced to speech. Soft ambient café sounds. Ends with a subtle “Repeat & Learn” prompt.

效果:


🧙🏻 提示词公式指南

提示词用来描述视频中所包含的内容和运动过程,它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富,生成视频的品质越高,且越贴近期望生成的内容。

更多万相生视频指南,参考通义万相使用指南

更多教程测评和prompt,参考 Wan 2.6 深度测评 & Prompt 合集

为了帮助你更快上手,我们针对不同的使用需求提供了两种典型公式:

基础公式适用于初次尝试AI视频的新用户,及将AI视频作为灵感启发的用户,简单自由的提示词可生成更具有想象力的视频。

提示词 = 主体 + 场景 + 运动

主体:主体是视频内容的主要表现对象,可以是人、动物、植物、物品或非物理真实存在的想象物体。

场景:场景是主体所处的环境,包含背景、前景,可以是物理存在的真实空间或想象出来的虚构场景。

运动:运动包含主体的具体运动和非主体的运动状态,可以是静止、小幅度运动、大幅度运动、局部运动或整体动势。


进阶公式适用于有一定AI视频使用经验的用户,在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。

提示词 = 主体(主体描述)+ 场景(场景描述)+ 运动(运动描述)+ 美学控制 + 风格化

主体描述:主体描述是对主体外观特征细节的描述,可通过形容词或短句列举,例如“一位身着少数民族服饰的黑发苗族少女”、“一位来自异世界的飞天仙子,身着破旧却华丽的服饰,背后展开一对由废墟碎片构成的奇异翅膀”。

场景描述:场景描述是对主体所处环境特征细节的描述,可通过形容词或短句列举。

运动描述:运动描述是对运动特征细节的描述,包含运动的幅度、速率和运动作用的效果,例如“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”。

美学控制:包含光源、光线环境、景别、视角、镜头运镜等,常见镜头语言详见下方提示词词典。

风格化:风格化是对画面风格语言的描述,例如“赛博朋克”、“勾线插画”、“废土风格”,常见风格化详见下方提示词词典。


图生视频公式图像已经确定了主体、场景与风格,因此提示词主要描述动态过程及运镜需求。

提示词 = 运动 + 运镜

运动描述:结合图像中的元素(如人物、动物),描述其相动态的过程,如奔跑、打招呼,可以通过形容词来控制动态的程度与速度,如“快速地”、“缓慢地”。

运镜:若对镜头运动有特定要求,通过提示词如“镜头推进”、“镜头左移”控制,若希望镜头不要发生变化,可以通过“固定镜头”来强调。


声音公式基于Wan2.5、Wan2.6模型原生音频能力,增加对人声、音效与背景音乐的描述,提高声音控制能力。

提示词 = 主体 + 场景 + 运动 + 声音描述(人声/音效/背景音乐)

声音描述:声音描述是视频中声音要素及其随时间变化的描述,用来指导声音内容和声音氛围,使其与画面叙事精准配合,主要包括人声、音效、BGM三类。

人声 = “角色说话的内容” + 情绪 + 语调 + 语速 + 音色 + 口音

示例:一个男人在讲脱口秀,他说道:"好好学习,天天向上",语气轻松,语速适中,声音清亮,美式英文。

音效 = 音源材质 + 行为 + 环境音

示例:一个玻璃小球从桌面掉在木质地面上,发出“砰”的声音,室内安静环境。

背景音乐 = 背景音乐/配乐 + 风格

示例:雨夜,阴森窄小的走廊,尽头有一扇窗户,配有悬疑风格背景音乐。


参考生视频万相2.6支持参考输入视频中的主角生成视频,会参考主角的外观形象、动态特征和音色(如有声音),主角可以是人物、卡通、宠物、道具等任意类型。单次生成支持最多3角色合拍。

*适用于万相2.6模型

提示词 = @主角 + 动作 + 台词 + 场景

@主角:通过@引用参考主角,可支持同时参考最多3个主角,每个主角支持多次引用在提示词不同位置,精准控制主角行为。

动作:描述主角或其他元素的运动状态,包括静止、表情情绪变化、肢体动作、外力动作和位移变化等。

台词:主角的说话内容,支持单主角说话或多主角对话。

场景:主角所在的环境,包括背景和前景,既可以是真实空间,也可以是虚构场景。

示例:这是一个充满童趣的童话场景。@A 在草地上蹦跳着玩耍,@B 在旁边的一棵苹果树下弹奏钢琴,一颗苹果掉到了@B 的头上,@A 开心的指着@B 说:“你要变成科学家了!”。

*其中A的参考视频是一只兔子,B的参考视频是一只狗


多镜头公式支持生成包含多个镜头的连贯叙事视频,通过提示词精准控制镜头的结构、机位和时间,并在多镜头间保持画面主体、场景、氛围等关键信息的一致性。同时也可以打开「智能多镜」功能,在输入简单提示词的情况下获得多镜头视频。

*适用于万相2.6模型

提示词 = 总体描述 + 镜头序号 + 时间戳 + 分镜内容

总体描述:简要概述整个视频内容,说明故事主题、叙述风格、主要情感或核心事件,便于AI把握全局叙事方向。

镜头序号:为每个镜头分配编号,用于区分视频中不同的场景或段落顺序,帮助清晰组织视频结构。

时间戳:标明每个镜头在视频中的具体时间范围,确保镜头内容与视频时间线对应,提升生成的准确性。

分镜内容:详细描述每个分镜头中主要角色或物体的具体行为,包括动作、语言、表情、姿态等,可以参考一般单镜头的提示词写法。

示例:

这个故事以第三人称视角,讲述了一个关于放弃与重拾希望的短剧。

第1个镜头[0-3秒]一个男孩在操场的角落独自坐着,低头望着手中的信纸,随后轻轻叹气,眼神中透露出迷茫。

第2个镜头[3-5秒]硬切转场,固定机位,聚焦于男孩的眼睛,泪光闪烁,带着失落和无助。

第3个镜头[5-10秒]硬切转场,场景转至一间简朴的教室。一个女孩眼神温和而坚定,穿着朴素的衣着,面带温和而坚定的笑容,走到男孩的身边安慰他。


🕹 上百炼即刻体验(50s免费额度)

https://bailian.console.aliyun.com/?source_channel=wanoctgtm&tab=demohouse#/experience/t2v

相关文章
|
4天前
|
数据采集 人工智能 安全
|
14天前
|
云安全 监控 安全
|
5天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1145 152
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1806 9
|
10天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
733 152
|
7天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
517 5
|
12天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
676 14