LTX-2.3开源: 视频生成引擎级升级

简介: Lightricks开源LTX-2.3音视频大模型:重建VAE提升细节锐度,文本连接器扩容4倍增强Prompt遵循,大幅优化I2V运动自然性与音频质量,并首次原生支持1080×1920竖版视频生成。22B参数,支持文生视频、图生视频等多任务。

Lightricks的开源续作 LTX-2.3正式开源,这是 LTX-2 音视频基础模型的重大版本更新,在视频质量以及提示词遵循方面均有提升。LTX-2.3重建了 VAE 架构、扩容文本连接器,同时改进 I2V 训练,也更换音频声码器,并首次支持原生竖版视频生成。

📎ltx2-3-hero-fin-opt1.mp4

开源地址:

模型权重:

https://modelscope.cn/models/Lightricks/LTX-2.3


GitHub:

https://github.com/Lightricks/LTX-2


技术论文:

https://arxiv.org/abs/2601.03233


核心更新

重建 VAE,细节更锐利

重新训练 VAE 架构,构建全新潜在空间。毛发、边缘、文字等高频细节在整个生成流程中保留更完整,低分辨率下的软化问题明显改善。如果你之前依赖后期锐化来补偿生成质量,2.3 版本应能减少这个需求。

📎01-SharpDetails.mp4


文本连接器扩容 4 倍,Prompt 理解更准

增大文本连接器容量并改进架构。多主体场景、空间关系描述、特定风格指令,现在都能更忠实地转化到输出中。之前需要简化 Prompt 才能稳定出图的情况,现在可以尝试更具体的描述。

📎02-Prompt-Enharance.mp4

I2V 大幅改善,真实运动更多

这是社区反馈最集中的问题。重新训练 I2V,减少"Ken Burns 效应"(静态缩放平移),消除静止视频,减少意外跳切,提高从输入帧到输出的视觉一致性。生产流程中的 I2V 废弃率应有明显下降。

📎03-Image2Video.mp4

音频更干净

过滤训练集中的静音段和噪声,同步更换新声码器(改进版 HiFi-GAN,支持 24kHz 立体声)。音画对齐更紧,随机噪声和意外静音更少。对文生视频和音频条件生成流程均适用。

📎04-Audio-After.mp4

改进版

📎04-Audio-Before.mp4

原版


原生竖版视频,最高 1080×1920

LTX 系列首次支持竖版生成。在竖版数据上训练,而非从横版裁剪。直接对应 TikTok、Instagram Reels、YouTube Shorts 等主流短视频格式。

📎05-Portrait-1.mp4


模型规格

项目

参数

架构

非对称双流扩散 Transformer(DiT)

参数量

22B(dev 全量版)

最长生成时长

20 秒

最高分辨率

4K,支持竖版 1080×1920

帧率

25fps / 50fps

文本编码器

Gemma-3

训练数据来源

授权数据(Getty Images、Shutterstock 合作)

支持任务

文生视频、图生视频、视频生视频、音频生视频、视频扩展


开源模型权重

名称

说明

ltx-2.3-22b-dev

完整模型,bf16 精度,支持微调和 LoRA 训练

ltx-2.3-22b-distilled

8 步蒸馏版,推理更快,显存占用更低(CFG=1)

ltx-2.3-22b-distilled-lora-384

蒸馏 LoRA,可叠加到完整模型使用

ltx-2.3-spatial-upscaler-x2-1.0

2 倍空间超分放大模块

ltx-2.3-spatial-upscaler-x1.5-1.0

1.5 倍空间超分放大模块

ltx-2.3-temporal-upscaler-x2-1.0

2 倍时序超分,用于提升帧率


模型推理

官方github推理
环境安装

git clone https://github.com/Lightricks/LTX-2.gitcd LTX-2
uv sync --frozen
source .venv/bin/activate


推理脚本

# Run a pipeline (example: two-stage text-to-video)
python -m ltx_pipelines.ti2vid_two_stages \
    --checkpoint-path path/to/checkpoint.safetensors \    
    --distilled-lora path/to/distilled_lora.safetensors 0.8 \    
    --spatial-upsampler-path path/to/upsampler.safetensors \    
    --gemma-root path/to/gemma \    
    --prompt "A beautiful sunset over the ocean" \    
    --output-path output.mp4
    
# View all available options for any pipeline
python -m ltx_pipelines.ti2vid_two_stages --help


DiffSynth-Studio 推理

安装 DiffSynth-Studio:https://github.com/modelscope/DiffSynth-Studio

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

推理代码:

import torch
from diffsynth.pipelines.ltx2_audio_video import LTX2AudioVideoPipeline, ModelConfig
from diffsynth.utils.data.media_io_ltx2 import write_video_audio_ltx2
vram_config = {
    "offload_dtype": torch.bfloat16,
    "offload_device": "cpu",
    "onload_dtype": torch.bfloat16,
    "onload_device": "cuda",
    "preparing_dtype": torch.bfloat16,
    "preparing_device": "cuda",
    "computation_dtype": torch.bfloat16,
    "computation_device": "cuda",
}
pipe = LTX2AudioVideoPipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="google/gemma-3-12b-it-qat-q4_0-unquantized", origin_file_pattern="model-*.safetensors", **vram_config),
        ModelConfig(model_id="Lightricks/LTX-2.3", origin_file_pattern="ltx-2.3-22b-dev.safetensors", **vram_config),
    ],
    tokenizer_config=ModelConfig(model_id="google/gemma-3-12b-it-qat-q4_0-unquantized"),
)
prompt = "A girl is very happy, she is speaking: “I enjoy working with Diffsynth-Studio, it's a perfect framework.”"
negative_prompt = "blurry, out of focus, overexposed, underexposed, low contrast, washed out colors, excessive noise, grainy texture, poor lighting, flickering, motion blur, distorted proportions, unnatural skin tones, deformed facial features, asymmetrical face, missing facial features, extra limbs, disfigured hands, wrong hand count, artifacts around text, inconsistent perspective, camera shake, incorrect depth of field, background too sharp, background clutter, distracting reflections, harsh shadows, inconsistent lighting direction, color banding, cartoonish rendering, 3D CGI look, unrealistic materials, uncanny valley effect, incorrect ethnicity, wrong gender, exaggerated expressions, wrong gaze direction, mismatched lip sync, silent or muted audio, distorted voice, robotic voice, echo, background noise, off-sync audio, incorrect dialogue, added dialogue, repetitive speech, jittery movement, awkward pauses, incorrect timing, unnatural transitions, inconsistent framing, tilted camera, flat lighting, inconsistent tone, cinematic oversaturation, stylized filters, or AI artifacts."
height, width, num_frames = 512, 768, 121
video, audio = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    seed=43,
    height=height,
    width=width,
    num_frames=num_frames,
    tiled=True,
)
write_video_audio_ltx2(
    video=video,
    audio=audio,
    output_path='ltx2.3_onestage.mp4',
    fps=24,
    audio_sample_rate=pipe.audio_vocoder.output_sampling_rate,
)

DiffSynth-Studio LoRA 训练

下载样例数据集:

modelscope download --dataset DiffSynth-Studio/example_video_dataset --local_dir ./data/example_video_dataset

数据处理:

accelerate launch examples/ltx2/model_training/train.py 
  --dataset_base_path data/example_video_dataset/ltx2 
  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv 
  --data_file_keys "video,input_audio" 
  --extra_inputs "input_audio" 
  --height 512 
  --width 768 
  --num_frames 121 
  --dataset_repeat 1 
  --model_id_with_origin_paths "DiffSynth-Studio/LTX-2.3-Repackage:text_encoder_post_modules.safetensors,DiffSynth-Studio/LTX-2.3-Repackage:video_vae_encoder.safetensors,DiffSynth-Studio/LTX-2.3-Repackage:audio_vae_encoder.safetensors,google/gemma-3-12b-it-qat-q4_0-unquantized:model-*.safetensors" 
  --learning_rate 1e-4 
  --num_epochs 5 
  --remove_prefix_in_ckpt "pipe.dit." 
  --output_path "./models/train/LTX2.3-T2AV_lora-splited-cache" 
  --lora_base_model "dit" 
  --lora_target_modules "to_k,to_q,to_v,to_out.0" 
  --lora_rank 32 
  --use_gradient_checkpointing 
  --task "sft:data_process"


LoRA 模型训练(需 80G 显存):

accelerate launch examples/ltx2/model_training/train.py 
  --dataset_base_path ./models/train/LTX2.3-T2AV_lora-splited-cache 
  --data_file_keys "video,input_audio" 
  --extra_inputs "input_audio" 
  --height 512 
  --width 768 
  --num_frames 121 
  --dataset_repeat 100 
  --model_id_with_origin_paths "DiffSynth-Studio/LTX-2.3-Repackage:transformer.safetensors" 
  --learning_rate 1e-4 
  --num_epochs 5 
  --remove_prefix_in_ckpt "pipe.dit." 
  --output_path "./models/train/LTX2.3-T2AV_lora" 
  --lora_base_model "dit" 
  --lora_target_modules "to_k,to_q,to_v,to_out.0" 
  --lora_rank 32 
  --use_gradient_checkpointing 
  --task "sft:train"

说明:

从 LTX-2 升级到 2.3 有一个破坏性变更:LTX-2 的 LoRA 无法直接用于 2.3。VAE 重建后潜在空间发生了变化,已有的自定义 LoRA 需要重新训练。


总结

LTX-2.3 是一次聚焦实际使用问题的引擎升级——VAE 更细腻、Prompt 更准、I2V 更自然、音频更干净、首次支持原生竖版。


LTX-2 自 1 月开放权重以来已有近 500 万次下载,社区产出了推理加速、量化版本和大量 ComfyUI 节点。2.3 是在这个基础上的下一步。


点击 即可跳转模型链接:https://modelscope.cn/models/Lightricks/LTX-2.3

目录
相关文章
|
7天前
|
机器学习/深度学习 编解码 运维
红外小目标检测新突破!异常感知检测头AA-YOLO:节俭又鲁棒,小样本也能精准识别
本文提出AA-YOLO:首个将统计异常检验嵌入YOLO检测头的方法,通过指数分布建模背景,显式识别小目标为统计异常,显著降低误报率;仅需10%数据即达90%全量性能,参数比EFLNet少6倍,轻量高效;在噪声、跨域、跨模态下鲁棒性强,且可无缝适配各类YOLO及实例分割网络。
194 4
|
4天前
|
缓存 JSON API
玩转纳斯达克与纽交所:美股数据 API 对接全指南
本文手把手教你用StockTV API对接美股(NYSE/NASDAQ)实时行情、专业K线及IPO数据,支持WebSocket极速推送、多维技术指标与全交易所覆盖,助你快速构建低延迟量化交易或金融App。(239字)
|
13天前
|
人工智能 API 开发工具
Silly Tavern 免费API保姆级教学
本指南详解Windows下安装SillyTavern全流程:先安装Node.js与Git,再克隆仓库(推荐Gitee镜像),双击Start.bat启动;接着配置OpenAI兼容API(如Canopy Wave),填入Key与端点;最后下载导入角色卡,即可开启AI角色对话体验。(239字)
444 0
Silly Tavern 免费API保姆级教学
|
7天前
|
机器学习/深度学习 人工智能 数据可视化
基于YOLO11的交通违规检测系统(Python源码+数据集+Pyside6界面)
本文基于YOLO11构建交通违规检测系统,涵盖23类目标(车辆、信号灯、标志等),详解数据制作(ROI裁剪优化尺度)、模型改进(C3k2、C2PSA、轻量Detect头)及训练可视化全过程,并集成PySide6实现GUI应用,助力工业落地。
200 12
|
19天前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
493 6
|
12天前
|
机器学习/深度学习 人工智能 文字识别
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
469 22
|
19天前
|
人工智能 算法 测试技术
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
562 4
|
4月前
|
自然语言处理 物联网 Shell
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
LightX2V 是一款轻量级视频生成框架,通过4步蒸馏技术,将传统需50步的扩散模型压缩至仅4步,推理速度提升20倍,生成质量依旧保持影院级水准。支持文生视频与图生视频,兼容LoRA、量化等部署方案,助力AIGC高效落地。
548 0
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
4106 9
|
17天前
|
机器学习/深度学习 测试技术 API
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
3135 23

热门文章

最新文章