❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:DiffuEraser 能够修复视频中的遮罩区域,生成丰富的细节并保持时间一致性。
- 技术:基于稳定扩散模型,结合 BrushNet 和 UNet 架构,优化时间一致性。
- 应用:适用于电影修复、监控视频增强、体育赛事直播等多种场景。
正文(附运行示例)
DiffuEraser 是什么
DiffuEraser 是阿里通义实验室推出的一款基于稳定扩散模型的视频修复工具。它能够通过结合先验信息,减少噪声伪影并抑制幻觉,生成更连贯的视频修复结果。DiffuEraser 的网络架构受 AnimateDiff 启发,集成了运动模块,主要由主去噪 UNet 和辅助的 BrushNet 组成。
DiffuEraser 通过扩展先验模型和自身的时间感受野,增强了视频修复的时间一致性。去噪后,生成的图像会与输入的遮罩图像进行融合,确保修复内容与未遮罩区域的一致性。
DiffuEraser 的主要功能
- 未知像素生成:基于稳定扩散模型,生成从未出现过的像素,解决传统模型处理大遮罩时的模糊问题。
- 已知像素传播:通过运动模块和先验模型,确保已知像素在不同帧之间一致传播。
- 时间一致性维护:扩展时间感受野,增强长序列推理中的时间一致性。
- 先验信息注入:通过先验信息减少噪声伪影,生成更准确的修复结果。
- 网络架构优化:集成 BrushNet 和 UNet,引入时间注意力机制,增强时间一致性。
DiffuEraser 的技术原理
- 网络架构:DiffuEraser 的网络架构受 AnimateDiff 启发,主要由主去噪 UNet 和辅助的 BrushNet 组成。BrushNet 提取的特征通过零卷积块逐层整合到 UNet 中。
- 视频修复问题分解:将视频修复问题分解为已知像素传播、未知像素生成和时间一致性维护三个子问题。
- 时间一致性优化:通过扩展先验模型和自身的时间感受野,增强长序列推理中的时间一致性。
如何运行 DiffuEraser
1. 安装环境
首先,克隆 DiffuEraser 的 GitHub 仓库并创建 Conda 环境:
git clone https://github.com/lixiaowen-xw/DiffuEraser.git
conda create -n diffueraser python=3.9.19
conda activate diffueraser
pip install -r requirements.txt
2. 下载预训练模型
从 Hugging Face 或 ModelScope 下载预训练模型,并将其放置在 ./weights
目录下。
3. 运行推理
进入 DiffuEraser 目录并运行推理脚本:
cd DiffuEraser
python run_diffueraser.py
推理结果将保存在 results
文件夹中。你可以替换 input_video
和 input_mask
来测试自己的视频。
资源
- 项目官网:https://lixiaowen-xw.github.io/DiffuEraser-page/
- GitHub 仓库:https://github.com/lixiaowen-xw/DiffuEraser
- arXiv 技术论文:https://arxiv.org/pdf/2501.10018
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦