⚽阿里云百炼通义万相 2.6 视频生成玩法手册-阿里云开发者社区

*本文章结果视频均由wan2.6生成

🌟 模型亮点速览

通义万相 2.6 系列视频生成模型，面向专业影视创作全面升级，是国内首个支持角色扮演功能的视频模型！

相较前一代 Wan 2.5 - Preview 系列模型，本次升级支持全新视频参考生成功能，可将人或任意物作为主角，生成单人表演或多人合拍。模型还支持多镜头叙事、智能调度镜头，多人对话更稳定、一次性生成更长时长、更强的指令遵循和声画同步。

角色扮演：万物皆可为主演。参考输入视频的形象和音色，实现角色扮演，用 prompt 让角色出演你的剧本。支持人或任意物体作为主角，支持单主体或多主体合拍
智能分镜叙事：一句话生成多镜头视频。只要输入简单prompt描述，模型自动拆解为多镜头，如包含特写（眼神）、中景（动作）、全景（环境），并保持角色、服装、情绪等一致
15秒长视频+自然声画同步：生成最长15秒的连贯视频，包含入场、互动、离场等完整叙事结构，不再是碎片化动作。角色不仅能动嘴，更能带情感说话。人声富有情绪，口型精准匹配，支持多人自然对话

📖 模型详情信息

模型名称

模型特色

输入输出

计费单价

免费额度 & 节省计划

文生视频

Wan2.6-T2V

基于文本提示词，生成一段流畅的视频。支持的能力包括：

基础能力：支持选择视频时长（5/10/15秒）、指定视频分辨率（720P/1080P）、智能改写prompt、添加水印。
音频能力：支持自动配音，或传入自定义音频文件，实现声画同步。
多镜头叙事：支持生成包含多个镜头的视频，在镜头切换的同时保持主体一致。

API参考

分辨率档位：720P、1080P

视频时长：5秒、10秒、15秒

固定规格：30fps、MP4 (H.264编码)

文字 → 视频

720P：0.6元/秒

1080P：1元/秒

免费额度：50秒

有效期限：阿里云百炼开通后90天内

图生视频

Wan2.6-I2V

根据首帧图像和文本提示词，生成一段流畅的视频。支持的能力包括：

基础能力：支持选择视频时长（5秒/10秒/15秒）、指定视频分辨率（720P/1080P）、智能改写prompt、添加水印。
音频能力：支持自动配音，或传入自定义音频文件，实现声画同步。
多镜头叙事：支持生成包含多个镜头的视频，在镜头切换时保持主体一致性。

API参考

分辨率档位：720P、1080P

视频时长：5秒、10秒、15秒

固定规格：30fps、MP4 (H.264编码)

图片 + 文字 + 音频（可选） → 视频

720P：0.6元/秒

1080P：1元/秒

参考生视频🌟

Wan2.6-R2V

参考输入视频中的角色形象和音色，搭配提示词生成保持角色一致性的视频。支持的能力包括：

基础能力：支持选择视频时长（5/10秒）、指定视频分辨率（720P/1080P）、添加水印。
音频能力：支持通过提示词生成声音，可参考输入视频的音色。
多镜头叙事：支持生成包含多个镜头的视频，并且在镜头切换时，保持主体一致性。

API参考

分辨率档位：720P、1080P

视频时长：5秒、10秒

固定规格：30fps、MP4 (H.264编码)

视频 + 文字 + 音频（可选）→ 视频

720P：0.6元/秒

1080P：1元/秒

🎨 场景应用玩法

① 角色扮演【国内首家】

目前 wan2.6-r2v 尚不支持在百炼的模型体验，仅可通过 API 方式调用。

为了更好的参考生成，输入参考视频 Tips：

视频需突出主体。角色是人的话，面部清楚+有声音

2-30s 视频均可以（需注意输入视频的秒数会产生计费）

单人角色表演：基于参考视频中的角色在不同场景中展现完整表演，适用于个人品牌、产品代言、教育培训等。

demo：

提示词：赛博朋克圣诞主题电影。Character1穿黑色皮夹克、戴圣诞帽，和一位穿传统圣诞老人服装的白胡子老人一起并肩作战，两人都手持枪支，背景是科幻风格的太空船内部（金属墙壁、发光灯带、走廊结构）

效果：

提示词：展示一款新型口红的质地、色彩和持久度。

第1个镜头[0-2秒] character1面对镜子，手持口红管，准备涂抹。

第2个镜头[2-4秒] 特写镜头，口红在嘴唇上均匀涂抹，展现丝滑质地。

第3个镜头[4-6秒] character1喝水后，嘴唇依然保持完美妆容，展示持久性。

第4个镜头[6-10秒] character1自信地对着镜头微笑，整体妆容精致，突出口红的色彩魅力。

效果：

提示词：展示最新款智能手表的多功能性和时尚设计。

第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表，屏幕显示日程提醒。

第2个镜头[3-5秒] 特写镜头，手表屏幕切换到健康监测界面，显示心率和步数数据。

第3个镜头[5-8秒] character1在健身房运动，手表自动识别运动模式并开始记录。

第4个镜头[8-10秒] 手表收到消息通知，character1轻触屏幕查看详情，操作流畅自然。

效果：

提示词：专业健身教练演示正确的运动姿势和呼吸技巧。

第1个镜头[0-2秒] character1站在健身房中，穿着专业运动服，准备开始教学。

第2个镜头[3-6秒] character1演示深蹲动作，同时讲解："保持背部挺直，膝盖不要超过脚尖。"

第3个镜头[6-8秒] 特写镜头展示正确的呼吸节奏和核心收紧状态。

第4个镜头[8-10秒] character1对着镜头微笑鼓励："坚持练习，你也能做到！

效果：

提示词：将character1转化为圣诞树造型。视频开头，电梯门打开，展示 character 1 的圣诞树造型

效果：

多人角色互动：支持最多三个角色合拍，生成自然对话和互动，适用于访谈、对话、教学等场景。

demo：

提示词：这是一个关于真挚友谊如何帮助人们度过困难时期的温馨故事。

第1个镜头[0-2秒] character1独自坐在公园长椅上，低头看着手机，表情沮丧。

第2个镜头[2-4秒] character2从远处跑来，手里拿着两杯咖啡，脸上带着温暖的笑容。

第3个镜头[4-7秒] 两人并肩坐在长椅上，character2轻轻拍拍character1的肩膀，两人开始愉快地交谈。

第4个镜头[7-10秒] 镜头拉远，展现两人在夕阳下的剪影，友谊的温暖氛围弥漫整个画面。

效果：

提示词：现代工业风录音室，砖墙覆盖声学吸音板，设备齐全。

坐着对话筒发言的是character 1，对面是手持话筒的Character2。

Character1说: “Today we're excited to have Dr. Sarah from Tonyi Lab. Sarah, your research on video generation model is groundbreaking.”

紧接着 Character 2 回应：“Thank you for having me.”镜头在两人间切换。

效果：

demo：

提示词：一段温馨有趣的宠物短视频。

第1个镜头[0-2秒] character1对着镜头微笑挥手，背景是充满活力的城市街道。

第2个镜头[2-4秒] 突然一只可爱的狗狗 character2从画面外跳入，扑向年轻人。

第3个镜头[4-6秒] character1和character2开心互动，狗狗character2摇尾巴，character1抚摸character2的头。

第4个镜头[6-8秒] 镜头切换到狗狗character2的视角，展现它眼中的主人character1。

第5个镜头[8-10秒] character1和character2合影，营造温馨欢乐的氛围。

效果：

附：Wan2.6-R2V 调用示例代码

步骤一：参考视频的主体和音色，根据prompt生成新的视频。
curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
    -H 'X-DashScope-Async: enable' \
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
    -H 'Content-Type: application/json' \
    -d '{
    "model": "wan2.6-r2v",
    "input": {
        "prompt": "展示最新款智能手表的多功能性和时尚设计。第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表，屏幕显示日程提醒。第2个镜头[3-5秒] 特写镜头，手表屏幕切换到健康监测界面，显示心率和步数数据。第3个镜头[5-8秒] character1在健身房运动，手表自动识别运动模式并开始记录。第4个镜头[8-10秒] 手表收到消息通知，character1轻触屏幕查看详情，操作流畅自然。",
        "reference_video_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"]
    },
    "parameters": {
        "size": "1920*1080",
        "duration": 10,
        "audio": true,
        "prompt_extend": true,
        "shot_type":"multi"
    }
}'
步骤二：查询生成结果（预计需要等待 5+ 分钟）
请保存步骤一生成的 task_id,用于查询任务状态与结果。
{
    "output": {
        "task_status": "PENDING",
        "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"
    },
    "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"
}
步骤三：查询生成结果（预计需要等待 5+ 分钟）
请将86ecf553-d340-4e21-xxxxxxxxx替换为真实的task_id。
curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \
--header "Authorization: Bearer $DASHSCOPE_API_KEY"

② 智能分镜叙事 & 15s 长视频生成

影视级多镜头创作：利用智能分镜功能，自动生成包含特写、中景、全景的专业级镜头组合。

demo：

提示词

一段紧张刺激的侦探追查故事，展现电影级叙事能力。

第1个镜头[0-3秒] 全景：雨夜的纽约街头，霓虹灯闪烁，一位身穿黑色风衣的侦探快步行走。

第2个镜头[3-6秒] 中景：侦探进入一栋老旧建筑，雨水打湿了他的外套，门在他身后缓缓关闭。

第3个镜头[6-9秒] 特写：侦探的眼神坚毅专注，远处传来警笛声，他微微皱眉思考。

第4个镜头[9-12秒] 中景：侦探在昏暗走廊中小心前行，手电筒照亮前方。

第5个镜头[12-15秒] 特写：侦探发现关键线索，脸上露出恍然大悟的表情。

效果：

提示词

展现未来科技与自然和谐共存的美好愿景。

第1个镜头[0-2秒] 未来城市的空中花园全景，悬浮植物在微风中摇曳。

第2个镜头[2-4秒] 机器人园丁正在精心修剪植物，动作精准而优雅。

第3个镜头[4-7秒] 阳光透过透明穹顶洒下，照亮整个花园，展现科技与自然的完美融合。

第4个镜头[7-10秒] 镜头拉远，展现整个未来城市的壮观景象，空中花园只是其中的一部分。

效果：

产品营销智能展示：通过智能分镜自动展示产品的多个角度和使用场景。

demo：

提示词

展现跑车的速度与激情。

第1个镜头[0-2秒] 红色跑车停在蜿蜒山路的起点，引擎低沉轰鸣。

第2个镜头[2-6秒] 车辆开始加速，轮胎与路面摩擦产生轻微烟雾。

第3个镜头[6-8秒] 车内视角，驾驶员专注地操控方向盘，速度表指针快速上升。

第4个镜头[6-9秒] 航拍视角，跑车在山路上疾驰，展现优美的车身线条。

第5个镜头[9-15秒] 车辆停在山顶，俯瞰壮丽景色，突出驾驶体验的完美。

效果：

提示词

镜头1:特写镜头，梁和侧光突显光泽紫葡萄（饱满圆润，色泽诱人）从上方落入水中＋清澈水面五起层层淮漪和水花清新灵动，定格在葡萄入水瞬间，水花飞溅，晶莹水珠四散，光影在葡萄与水面间闪烁，展现自然清新且充满活力的画面；

镜头2:固定特写，柔和散射光，带水珠易拉罐（淡紫色罐体，紫色 "Wan"字样和葡萄图案）轻微晃动，水珠滑落，渐变紫色背景，清新凉爽；

镜头3:缓慢推近镜头，明亮自然光线，带水珠易拉罐（淡紫色罐体，紫色 "Wan"字样和葡萄图案）轻微旋转，水珠闪耀，散落紫葡萄与蓝天背景，清新活力，镜头逐渐聚焦罐体，光影下易拉罐旋转，水珠闪烁，营造出充满活力与清爽的氛围。

效果：

多语言声画同步：支持多语言配音，口型精准匹配，适用于国际化内容创作。

demo：

提示词

In a cozy Tokyo café, a young woman smiles and says in clear Japanese: “このコーヒー、すごく美味しいですね！” (“This coffee is really delicious!”). Her friend replies: “でしょう？ここで豆を焙煎してるんだよ。” (“Right? They roast their beans here.”). Natural lighting, shallow depth of field. Dual subtitles appear: Japanese (top) + English (bottom), synced to speech. Soft ambient café sounds. Ends with a subtle “Repeat & Learn” prompt.

效果：

🧙🏻 提示词公式指南

提示词用来描述视频中所包含的内容和运动过程，它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富，生成视频的品质越高，且越贴近期望生成的内容。

更多万相生视频指南，参考通义万相使用指南

更多教程测评和prompt，参考 Wan 2.6 深度测评 & Prompt 合集

为了帮助你更快上手，我们针对不同的使用需求提供了两种典型公式：

基础公式适用于初次尝试AI视频的新用户，及将AI视频作为灵感启发的用户，简单自由的提示词可生成更具有想象力的视频。

提示词 = 主体 + 场景 + 运动

主体：主体是视频内容的主要表现对象，可以是人、动物、植物、物品或非物理真实存在的想象物体。

场景：场景是主体所处的环境，包含背景、前景，可以是物理存在的真实空间或想象出来的虚构场景。

运动：运动包含主体的具体运动和非主体的运动状态，可以是静止、小幅度运动、大幅度运动、局部运动或整体动势。

进阶公式适用于有一定AI视频使用经验的用户，在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。

提示词 = 主体（主体描述）+ 场景（场景描述）+ 运动（运动描述）+ 美学控制 + 风格化

主体描述：主体描述是对主体外观特征细节的描述，可通过形容词或短句列举，例如“一位身着少数民族服饰的黑发苗族少女”、“一位来自异世界的飞天仙子，身着破旧却华丽的服饰，背后展开一对由废墟碎片构成的奇异翅膀”。

场景描述：场景描述是对主体所处环境特征细节的描述，可通过形容词或短句列举。

运动描述：运动描述是对运动特征细节的描述，包含运动的幅度、速率和运动作用的效果，例如“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”。

美学控制：包含光源、光线环境、景别、视角、镜头、运镜等，常见镜头语言详见下方提示词词典。

风格化：风格化是对画面风格语言的描述，例如“赛博朋克”、“勾线插画”、“废土风格”，常见风格化详见下方提示词词典。

图生视频公式图像已经确定了主体、场景与风格，因此提示词主要描述动态过程及运镜需求。

提示词 = 运动 + 运镜

运动描述：结合图像中的元素（如人物、动物），描述其相动态的过程，如奔跑、打招呼，可以通过形容词来控制动态的程度与速度，如“快速地”、“缓慢地”。

运镜：若对镜头运动有特定要求，通过提示词如“镜头推进”、“镜头左移”控制，若希望镜头不要发生变化，可以通过“固定镜头”来强调。

声音公式基于Wan2.5、Wan2.6模型原生音频能力，增加对人声、音效与背景音乐的描述，提高声音控制能力。

提示词 = 主体 + 场景 + 运动 + 声音描述（人声/音效/背景音乐）

声音描述：声音描述是视频中声音要素及其随时间变化的描述，用来指导声音内容和声音氛围，使其与画面叙事精准配合，主要包括人声、音效、BGM三类。

人声 = “角色说话的内容” + 情绪 + 语调 + 语速 + 音色 + 口音

示例：一个男人在讲脱口秀，他说道："好好学习，天天向上"，语气轻松，语速适中，声音清亮，美式英文。

音效 = 音源材质 + 行为 + 环境音

示例：一个玻璃小球从桌面掉在木质地面上，发出“砰”的声音，室内安静环境。

背景音乐 = 背景音乐/配乐 + 风格

示例：雨夜，阴森窄小的走廊，尽头有一扇窗户，配有悬疑风格背景音乐。

参考生视频万相2.6支持参考输入视频中的主角生成视频，会参考主角的外观形象、动态特征和音色（如有声音），主角可以是人物、卡通、宠物、道具等任意类型。单次生成支持最多3角色合拍。

*适用于万相2.6模型

提示词 = @主角 + 动作 + 台词 + 场景

@主角：通过@引用参考主角，可支持同时参考最多3个主角，每个主角支持多次引用在提示词不同位置，精准控制主角行为。

动作：描述主角或其他元素的运动状态，包括静止、表情情绪变化、肢体动作、外力动作和位移变化等。

台词：主角的说话内容，支持单主角说话或多主角对话。

场景：主角所在的环境，包括背景和前景，既可以是真实空间，也可以是虚构场景。

示例：这是一个充满童趣的童话场景。@A 在草地上蹦跳着玩耍，@B 在旁边的一棵苹果树下弹奏钢琴，一颗苹果掉到了@B 的头上，@A 开心的指着@B 说：“你要变成科学家了！”。

*其中A的参考视频是一只兔子，B的参考视频是一只狗

多镜头公式支持生成包含多个镜头的连贯叙事视频，通过提示词精准控制镜头的结构、机位和时间，并在多镜头间保持画面主体、场景、氛围等关键信息的一致性。同时也可以打开「智能多镜」功能，在输入简单提示词的情况下获得多镜头视频。

*适用于万相2.6模型

提示词 = 总体描述 + 镜头序号 + 时间戳 + 分镜内容

总体描述：简要概述整个视频内容，说明故事主题、叙述风格、主要情感或核心事件，便于AI把握全局叙事方向。

镜头序号：为每个镜头分配编号，用于区分视频中不同的场景或段落顺序，帮助清晰组织视频结构。

时间戳：标明每个镜头在视频中的具体时间范围，确保镜头内容与视频时间线对应，提升生成的准确性。

分镜内容：详细描述每个分镜头中主要角色或物体的具体行为，包括动作、语言、表情、姿态等，可以参考一般单镜头的提示词写法。

示例：

这个故事以第三人称视角，讲述了一个关于放弃与重拾希望的短剧。

第1个镜头[0-3秒]一个男孩在操场的角落独自坐着，低头望着手中的信纸，随后轻轻叹气，眼神中透露出迷茫。

第2个镜头[3-5秒]硬切转场，固定机位，聚焦于男孩的眼睛，泪光闪烁，带着失落和无助。

第3个镜头[5-10秒]硬切转场，场景转至一间简朴的教室。一个女孩眼神温和而坚定，穿着朴素的衣着，面带温和而坚定的笑容，走到男孩的身边安慰他。

🕹 上百炼即刻体验（50s免费额度）

https://bailian.console.aliyun.com/?source_channel=wanoctgtm&tab=demohouse#/experience/t2v

⚽阿里云百炼通义万相 2.6 视频生成玩法手册

🌟 模型亮点速览

📖 模型详情信息

🎨 场景应用玩法

① 角色扮演【国内首家】

单人角色表演：基于参考视频中的角色在不同场景中展现完整表演，适用于个人品牌、产品代言、教育培训等。

demo：

多人角色互动：支持最多三个角色合拍，生成自然对话和互动，适用于访谈、对话、教学等场景。

demo：

demo：

附：Wan2.6-R2V 调用示例代码

② 智能分镜叙事 & 15s 长视频生成

影视级多镜头创作：利用智能分镜功能，自动生成包含特写、中景、全景的专业级镜头组合。

demo：

产品营销智能展示：通过智能分镜自动展示产品的多个角度和使用场景。

demo：

多语言声画同步：支持多语言配音，口型精准匹配，适用于国际化内容创作。

demo：

🧙🏻 提示词公式指南

🕹 上百炼即刻体验（50s免费额度）

阿里云百炼

热门文章

最新文章

相关电子书