*本文章结果视频均由wan2.6生成
🌟 模型亮点速览
通义万相 2.6 系列视频生成模型,面向专业影视创作全面升级,是国内首个支持角色扮演功能的视频模型!
相较前一代 Wan 2.5 - Preview 系列模型,本次升级支持全新视频参考生成功能,可将人或任意物作为主角,生成单人表演或多人合拍。模型还支持多镜头叙事、智能调度镜头,多人对话更稳定、一次性生成更长时长、更强的指令遵循和声画同步。
- 角色扮演:万物皆可为主演。参考输入视频的形象和音色,实现角色扮演,用 prompt 让角色出演你的剧本。支持人或任意物体作为主角,支持单主体或多主体合拍
- 智能分镜叙事:一句话生成多镜头视频。只要输入简单prompt描述,模型自动拆解为多镜头,如包含特写(眼神)、中景(动作)、全景(环境),并保持角色、服装、情绪等一致
- 15秒长视频+自然声画同步:生成最长15秒的连贯视频,包含入场、互动、离场等完整叙事结构,不再是碎片化动作。角色不仅能动嘴,更能带情感说话。人声富有情绪,口型精准匹配,支持多人自然对话
📖 模型详情信息
模型名称 |
模型特色 |
输入输出 |
计费单价 |
免费额度 & 节省计划 |
文生视频 |
基于文本提示词,生成一段流畅的视频。支持的能力包括:
分辨率档位:720P、1080P 视频时长:5秒、10秒、15秒 固定规格:30fps、MP4 (H.264编码) |
文字 → 视频 |
720P:0.6元/秒 1080P:1元/秒 |
免费额度:50秒 有效期限:阿里云百炼开通后90天内 |
图生视频 |
根据首帧图像和文本提示词,生成一段流畅的视频。支持的能力包括:
分辨率档位:720P、1080P 视频时长:5秒、10秒、15秒 固定规格:30fps、MP4 (H.264编码) |
图片 + 文字 + 音频(可选) → 视频 |
720P:0.6元/秒 1080P:1元/秒 |
|
参考生视频🌟 |
参考输入视频中的角色形象和音色,搭配提示词生成保持角色一致性的视频。支持的能力包括:
分辨率档位:720P、1080P 视频时长:5秒、10秒 固定规格:30fps、MP4 (H.264编码) |
视频 + 文字 + 音频(可选)→ 视频 |
720P:0.6元/秒 1080P:1元/秒 |
🎨 场景应用玩法
① 角色扮演【国内首家】
目前 wan2.6-r2v 尚不支持在百炼的模型体验,仅可通过 API 方式调用。
为了更好的参考生成,输入参考视频 Tips:
视频需突出主体。角色是人的话,面部清楚+有声音
2-30s 视频均可以(需注意输入视频的秒数会产生计费)
单人角色表演:基于参考视频中的角色在不同场景中展现完整表演,适用于个人品牌、产品代言、教育培训等。
demo:
提示词:赛博朋克圣诞主题电影。Character1穿黑色皮夹克、戴圣诞帽,和一位穿传统圣诞老人服装的白胡子老人一起并肩作战,两人都手持枪支,背景是科幻风格的太空船内部(金属墙壁、发光灯带、走廊结构)
效果:
提示词:展示一款新型口红的质地、色彩和持久度。
第1个镜头[0-2秒] character1面对镜子,手持口红管,准备涂抹。
第2个镜头[2-4秒] 特写镜头,口红在嘴唇上均匀涂抹,展现丝滑质地。
第3个镜头[4-6秒] character1喝水后,嘴唇依然保持完美妆容,展示持久性。
第4个镜头[6-10秒] character1自信地对着镜头微笑,整体妆容精致,突出口红的色彩魅力。
效果:
提示词:展示最新款智能手表的多功能性和时尚设计。
第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。
第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。
第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。
第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。
效果:
提示词:专业健身教练演示正确的运动姿势和呼吸技巧。
第1个镜头[0-2秒] character1站在健身房中,穿着专业运动服,准备开始教学。
第2个镜头[3-6秒] character1演示深蹲动作,同时讲解:"保持背部挺直,膝盖不要超过脚尖。"
第3个镜头[6-8秒] 特写镜头展示正确的呼吸节奏和核心收紧状态。
第4个镜头[8-10秒] character1对着镜头微笑鼓励:"坚持练习,你也能做到!
效果:
提示词:将character1转化为圣诞树造型。视频开头,电梯门打开,展示 character 1 的圣诞树造型
效果:
多人角色互动:支持最多三个角色合拍,生成自然对话和互动,适用于访谈、对话、教学等场景。
demo:
提示词:这是一个关于真挚友谊如何帮助人们度过困难时期的温馨故事。
第1个镜头[0-2秒] character1独自坐在公园长椅上,低头看着手机,表情沮丧。
第2个镜头[2-4秒] character2从远处跑来,手里拿着两杯咖啡,脸上带着温暖的笑容。
第3个镜头[4-7秒] 两人并肩坐在长椅上,character2轻轻拍拍character1的肩膀,两人开始愉快地交谈。
第4个镜头[7-10秒] 镜头拉远,展现两人在夕阳下的剪影,友谊的温暖氛围弥漫整个画面。
效果:
提示词:现代工业风录音室,砖墙覆盖声学吸音板,设备齐全。
坐着对话筒发言的是character 1,对面是手持话筒的Character2。
Character1说: “Today we're excited to have Dr. Sarah from Tonyi Lab. Sarah, your research on video generation model is groundbreaking.”
紧接着 Character 2 回应:“Thank you for having me.”镜头在两人间切换。
效果:
demo:
提示词:一段温馨有趣的宠物短视频。
第1个镜头[0-2秒] character1对着镜头微笑挥手,背景是充满活力的城市街道。
第2个镜头[2-4秒] 突然一只可爱的狗狗 character2从画面外跳入,扑向年轻人。
第3个镜头[4-6秒] character1和character2开心互动,狗狗character2摇尾巴,character1抚摸character2的头。
第4个镜头[6-8秒] 镜头切换到狗狗character2的视角,展现它眼中的主人character1。
第5个镜头[8-10秒] character1和character2合影,营造温馨欢乐的氛围。
效果:
附:Wan2.6-R2V 调用示例代码
步骤一:参考视频的主体和音色,根据prompt生成新的视频。 curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \ -H 'X-DashScope-Async: enable' \ -H "Authorization: Bearer $DASHSCOPE_API_KEY" \ -H 'Content-Type: application/json' \ -d '{ "model": "wan2.6-r2v", "input": { "prompt": "展示最新款智能手表的多功能性和时尚设计。第1个镜头[0-3秒] character1在办公室中抬起手腕查看手表,屏幕显示日程提醒。第2个镜头[3-5秒] 特写镜头,手表屏幕切换到健康监测界面,显示心率和步数数据。第3个镜头[5-8秒] character1在健身房运动,手表自动识别运动模式并开始记录。第4个镜头[8-10秒] 手表收到消息通知,character1轻触屏幕查看详情,操作流畅自然。", "reference_video_urls":["https://cdn.wanx.aliyuncs.com/static/demo-wan26/vace.mp4"] }, "parameters": { "size": "1920*1080", "duration": 10, "audio": true, "prompt_extend": true, "shot_type":"multi" } }' 步骤二:查询生成结果(预计需要等待 5+ 分钟) 请保存步骤一生成的 task_id,用于查询任务状态与结果。 { "output": { "task_status": "PENDING", "task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx" }, "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx" } 步骤三:查询生成结果(预计需要等待 5+ 分钟) 请将86ecf553-d340-4e21-xxxxxxxxx替换为真实的task_id。 curl -X GET https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx \ --header "Authorization: Bearer $DASHSCOPE_API_KEY"
② 智能分镜叙事 & 15s 长视频生成
影视级多镜头创作:利用智能分镜功能,自动生成包含特写、中景、全景的专业级镜头组合。
demo:
提示词
一段紧张刺激的侦探追查故事,展现电影级叙事能力。
第1个镜头[0-3秒] 全景:雨夜的纽约街头,霓虹灯闪烁,一位身穿黑色风衣的侦探快步行走。
第2个镜头[3-6秒] 中景:侦探进入一栋老旧建筑,雨水打湿了他的外套,门在他身后缓缓关闭。
第3个镜头[6-9秒] 特写:侦探的眼神坚毅专注,远处传来警笛声,他微微皱眉思考。
第4个镜头[9-12秒] 中景:侦探在昏暗走廊中小心前行,手电筒照亮前方。
第5个镜头[12-15秒] 特写:侦探发现关键线索,脸上露出恍然大悟的表情。
效果:
提示词
展现未来科技与自然和谐共存的美好愿景。
第1个镜头[0-2秒] 未来城市的空中花园全景,悬浮植物在微风中摇曳。
第2个镜头[2-4秒] 机器人园丁正在精心修剪植物,动作精准而优雅。
第3个镜头[4-7秒] 阳光透过透明穹顶洒下,照亮整个花园,展现科技与自然的完美融合。
第4个镜头[7-10秒] 镜头拉远,展现整个未来城市的壮观景象,空中花园只是其中的一部分。
效果:
产品营销智能展示:通过智能分镜自动展示产品的多个角度和使用场景。
demo:
提示词
展现跑车的速度与激情。
第1个镜头[0-2秒] 红色跑车停在蜿蜒山路的起点,引擎低沉轰鸣。
第2个镜头[2-6秒] 车辆开始加速,轮胎与路面摩擦产生轻微烟雾。
第3个镜头[6-8秒] 车内视角,驾驶员专注地操控方向盘,速度表指针快速上升。
第4个镜头[6-9秒] 航拍视角,跑车在山路上疾驰,展现优美的车身线条。
第5个镜头[9-15秒] 车辆停在山顶,俯瞰壮丽景色,突出驾驶体验的完美。
效果:
提示词
镜头1:特写镜头,梁和侧光突显光泽紫葡萄(饱满圆润,色泽诱人)从上方落入水中+清澈水面五起层层淮漪和水花清新灵动,定格在葡萄入水瞬间,水花飞溅,晶莹水珠四散,光影在葡萄与水面间闪烁,展现自然清新且充满活力的画面;
镜头2:固定特写,柔和散射光,带水珠易拉罐 (淡紫色罐体,紫色 "Wan"字样和葡萄图案)轻微晃动,水珠滑落,渐变紫色背景,清新凉爽;
镜头3:缓慢推近镜头,明亮自然光线,带水珠易拉罐 (淡紫色罐体,紫色 "Wan"字样和葡萄图案)轻微旋转,水珠闪耀,散落紫葡萄与蓝天背景,清新活力,镜头逐渐聚焦罐体,光影下易拉罐旋转,水珠闪烁,营造出充满活力与清爽的氛围。
效果:
多语言声画同步:支持多语言配音,口型精准匹配,适用于国际化内容创作。
demo:
提示词
In a cozy Tokyo café, a young woman smiles and says in clear Japanese: “このコーヒー、すごく美味しいですね!” (“This coffee is really delicious!”). Her friend replies: “でしょう?ここで豆を焙煎してるんだよ。” (“Right? They roast their beans here.”). Natural lighting, shallow depth of field. Dual subtitles appear: Japanese (top) + English (bottom), synced to speech. Soft ambient café sounds. Ends with a subtle “Repeat & Learn” prompt.
效果:
🧙🏻 提示词公式指南
提示词用来描述视频中所包含的内容和运动过程,它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富,生成视频的品质越高,且越贴近期望生成的内容。
更多万相生视频指南,参考通义万相使用指南
更多教程测评和prompt,参考 Wan 2.6 深度测评 & Prompt 合集
为了帮助你更快上手,我们针对不同的使用需求提供了两种典型公式:
基础公式适用于初次尝试AI视频的新用户,及将AI视频作为灵感启发的用户,简单自由的提示词可生成更具有想象力的视频。
提示词 = 主体 + 场景 + 运动
主体:主体是视频内容的主要表现对象,可以是人、动物、植物、物品或非物理真实存在的想象物体。
场景:场景是主体所处的环境,包含背景、前景,可以是物理存在的真实空间或想象出来的虚构场景。
运动:运动包含主体的具体运动和非主体的运动状态,可以是静止、小幅度运动、大幅度运动、局部运动或整体动势。
进阶公式适用于有一定AI视频使用经验的用户,在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。
提示词 = 主体(主体描述)+ 场景(场景描述)+ 运动(运动描述)+ 美学控制 + 风格化
主体描述:主体描述是对主体外观特征细节的描述,可通过形容词或短句列举,例如“一位身着少数民族服饰的黑发苗族少女”、“一位来自异世界的飞天仙子,身着破旧却华丽的服饰,背后展开一对由废墟碎片构成的奇异翅膀”。
场景描述:场景描述是对主体所处环境特征细节的描述,可通过形容词或短句列举。
运动描述:运动描述是对运动特征细节的描述,包含运动的幅度、速率和运动作用的效果,例如“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”。
美学控制:包含光源、光线环境、景别、视角、镜头、运镜等,常见镜头语言详见下方提示词词典。
风格化:风格化是对画面风格语言的描述,例如“赛博朋克”、“勾线插画”、“废土风格”,常见风格化详见下方提示词词典。
图生视频公式图像已经确定了主体、场景与风格,因此提示词主要描述动态过程及运镜需求。
提示词 = 运动 + 运镜
运动描述:结合图像中的元素(如人物、动物),描述其相动态的过程,如奔跑、打招呼,可以通过形容词来控制动态的程度与速度,如“快速地”、“缓慢地”。
运镜:若对镜头运动有特定要求,通过提示词如“镜头推进”、“镜头左移”控制,若希望镜头不要发生变化,可以通过“固定镜头”来强调。
声音公式基于Wan2.5、Wan2.6模型原生音频能力,增加对人声、音效与背景音乐的描述,提高声音控制能力。
提示词 = 主体 + 场景 + 运动 + 声音描述(人声/音效/背景音乐)
声音描述:声音描述是视频中声音要素及其随时间变化的描述,用来指导声音内容和声音氛围,使其与画面叙事精准配合,主要包括人声、音效、BGM三类。
人声 = “角色说话的内容” + 情绪 + 语调 + 语速 + 音色 + 口音
示例:一个男人在讲脱口秀,他说道:"好好学习,天天向上",语气轻松,语速适中,声音清亮,美式英文。
音效 = 音源材质 + 行为 + 环境音
示例:一个玻璃小球从桌面掉在木质地面上,发出“砰”的声音,室内安静环境。
背景音乐 = 背景音乐/配乐 + 风格
示例:雨夜,阴森窄小的走廊,尽头有一扇窗户,配有悬疑风格背景音乐。
参考生视频万相2.6支持参考输入视频中的主角生成视频,会参考主角的外观形象、动态特征和音色(如有声音),主角可以是人物、卡通、宠物、道具等任意类型。单次生成支持最多3角色合拍。
*适用于万相2.6模型
提示词 = @主角 + 动作 + 台词 + 场景
@主角:通过@引用参考主角,可支持同时参考最多3个主角,每个主角支持多次引用在提示词不同位置,精准控制主角行为。
动作:描述主角或其他元素的运动状态,包括静止、表情情绪变化、肢体动作、外力动作和位移变化等。
台词:主角的说话内容,支持单主角说话或多主角对话。
场景:主角所在的环境,包括背景和前景,既可以是真实空间,也可以是虚构场景。
示例:这是一个充满童趣的童话场景。@A 在草地上蹦跳着玩耍,@B 在旁边的一棵苹果树下弹奏钢琴,一颗苹果掉到了@B 的头上,@A 开心的指着@B 说:“你要变成科学家了!”。
*其中A的参考视频是一只兔子,B的参考视频是一只狗
多镜头公式支持生成包含多个镜头的连贯叙事视频,通过提示词精准控制镜头的结构、机位和时间,并在多镜头间保持画面主体、场景、氛围等关键信息的一致性。同时也可以打开「智能多镜」功能,在输入简单提示词的情况下获得多镜头视频。
*适用于万相2.6模型
提示词 = 总体描述 + 镜头序号 + 时间戳 + 分镜内容
总体描述:简要概述整个视频内容,说明故事主题、叙述风格、主要情感或核心事件,便于AI把握全局叙事方向。
镜头序号:为每个镜头分配编号,用于区分视频中不同的场景或段落顺序,帮助清晰组织视频结构。
时间戳:标明每个镜头在视频中的具体时间范围,确保镜头内容与视频时间线对应,提升生成的准确性。
分镜内容:详细描述每个分镜头中主要角色或物体的具体行为,包括动作、语言、表情、姿态等,可以参考一般单镜头的提示词写法。
示例:
这个故事以第三人称视角,讲述了一个关于放弃与重拾希望的短剧。
第1个镜头[0-3秒]一个男孩在操场的角落独自坐着,低头望着手中的信纸,随后轻轻叹气,眼神中透露出迷茫。
第2个镜头[3-5秒]硬切转场,固定机位,聚焦于男孩的眼睛,泪光闪烁,带着失落和无助。
第3个镜头[5-10秒]硬切转场,场景转至一间简朴的教室。一个女孩眼神温和而坚定,穿着朴素的衣着,面带温和而坚定的笑容,走到男孩的身边安慰他。
🕹 上百炼即刻体验(50s免费额度)
https://bailian.console.aliyun.com/?source_channel=wanoctgtm&tab=demohouse#/experience/t2v