❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:支持多ID照片定制视频生成,保持身份一致性。
- 技术:基于面部提取器、多尺度投影器和ID路由器,实现高质量视频生成。
- 应用:适用于娱乐、广告、教育等多个领域,无需针对每个新身份进行训练。
正文(附运行示例)
Ingredients 是什么
Ingredients 是一款强大的视频生成框架,能够将多个特定身份(ID)的照片与视频扩散Transformer相结合,生成高度定制化的视频内容。该框架通过三个核心模块实现:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。
基于精心设计的多阶段训练协议,Ingredients 能够在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。这使得它在娱乐、广告、教育等多个领域具有广泛的应用前景。
Ingredients 的主要功能
- 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
- 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
- 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
- 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。
Ingredients 的技术原理
- 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
- 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
- ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。
如何运行 Ingredients
1. 环境配置
首先,确保你已经安装了 Python 3.11.0 和 Conda。然后,按照以下步骤配置环境:
conda create -n ingredients python=3.11.0
conda activate ingredients
pip install -r requirements.txt
2. 推理示例
我们提供了推理脚本 inference.py
,你可以通过以下命令进行简单的测试:
python infer.py \
--prompt "Two men in half bodies, are seated in a dimly lit room, possibly an office or meeting room, with a formal atmosphere." \
--model_path "\path\to\model" \
--seed 2025 \
--img_file_path 'asserts/0.jpg' 'asserts/1.jpg'
3. Gradio Web UI
我们还提供了一个 Web 界面,你可以通过以下命令启动:
python app.py
资源
- GitHub 仓库:https://github.com/feizc/Ingredients
- HuggingFace 仓库:https://huggingface.co/feizhengcong/Ingredients
- arXiv 技术论文:https://arxiv.org/pdf/2501.01790
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦