❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:STAR 能够将低分辨率视频提升为高分辨率,恢复细节并保持时间一致性。
- 技术:整合文本到视频扩散模型,引入局部信息增强模块和动态频率损失。
- 应用:适用于影视制作、安防监控、运动员动作分析等多个领域。
正文(附运行示例)
STAR 是什么
STAR 是由南京大学、字节跳动和西南大学联合推出的创新视频超分辨率(VSR)框架,能够从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR 整合了强大的文本到视频(T2V)扩散模型,增强了视频的空间细节和时间建模能力。
STAR 引入了局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。此外,STAR 还推出了动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,提高恢复保真度。
STAR 的主要功能
- 现实世界视频超分辨率:将现实世界中的低分辨率视频提升为高分辨率,同时恢复视频中的细节,如清晰的面部特征和准确的文字结构等。
- 增强空间细节:基于文本到视频(T2V)扩散模型的强大生成能力,生成具有丰富空间细节的视频,让视频内容更加逼真和清晰。
- 保持时间一致性:在提升视频分辨率的过程中,有效保持视频帧之间的时间一致性,避免出现运动模糊或不连贯的现象,让视频播放更加流畅自然。
- 减轻退化伪影:针对现实世界视频中存在的复杂退化问题,如噪声、模糊和压缩等,STAR 能有效减轻退化引入的伪影,提高视频的视觉质量。
STAR 的技术原理
- T2V 模型整合:将大规模预训练的文本到视频扩散模型融入视频超分辨率任务中。T2V 模型具备强大的生成能力和丰富的时空先验知识,从文本描述生成高质量视频,为视频超分辨率提供有力的模型基础。
- 局部信息增强模块(LIEM):在全局注意力机制之前引入 LIEM,弥补 T2V 模型在处理局部细节方面的不足。LIEM 基于局部注意力机制关注视频中的局部区域,增强局部信息的表达,更好地捕获和恢复视频中的细节,减轻复杂退化带来的伪影问题。
- 动态频率(DF)损失:STAR 推出 DF 损失优化模型的训练过程。损失函数根据扩散步骤动态调整对低频和高频成分的约束,使模型在早期阶段优先恢复视频的结构和大体轮廓(低频信息),在后期阶段再细化细节(高频信息)。
如何运行 STAR
1. 克隆仓库并创建环境
git clone https://github.com/NJU-PCALab/STAR.git
cd STAR
conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
2. 下载预训练模型
从 HuggingFace 下载预训练的 STAR 模型,并将其放入 pretrained_weight/
目录中。
3. 准备测试数据
将测试视频放入 input/video/
目录中。对于提示文本,可以选择不提供、自动生成或手动编写,并将其放入 input/text/
目录中。
4. 修改路径
在 video_super_resolution/scripts/inference_sr.sh
中修改路径,包括 video_folder_path
、txt_file_path
、model_path
和 save_dir
。
5. 运行推理命令
bash video_super_resolution/scripts/inference_sr.sh
如果遇到内存不足的问题,可以在 inference_sr.sh
中设置较小的 frame_length
。
资源
- 项目官网:https://nju-pcalab.github.io/projects/STAR/
- GitHub 仓库:https://github.com/NJU-PCALab/STAR
- HuggingFace 在线使用:https://huggingface.co/spaces/SherryX/STAR
- arXiv 技术论文:https://arxiv.org/pdf/2501.02976
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦