EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

创新框架:阿里巴巴和南洋理工大学联合推出的文本到图像生成模型训练技术。
高效训练:通过API交互和预训练VLMs动态优化数据集,减少数据量和训练成本。
性能提升:从多个高级模型中选择最佳样本,提升生成图像的质量和多样性。

正文(附运行示例)

EvolveDirector 是什么

公众号: 蚝油菜花 - EvolveDirector

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的创新框架,旨在通过公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。该框架的核心在于通过与现有高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,从而显著减少所需的数据量和训练成本。

EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有的高级模型。这种创新的方法不仅提高了模型的生成质量,还大大降低了训练成本和时间。

EvolveDirector 的主要功能

  • 文本到图像生成:将文本描述转换成高质量的图像。
  • API交互:基于与高级文本到图像模型的API交互,获取文本-图像数据对,训练基础模型。
  • 数据集优化:利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,基于智能选择、扩展、删除和变异操作。
  • 模型进化:指导基础模型的进化,模拟、超越高级模型的生成能力。
  • 多模型学习:从多个高级模型中选择最佳样本进行学习,提升生成图像的质量和多样性。
  • 在线训练:基于在线训练策略,让基础模型持续不间断地训练,同时动态更新训练数据集。

EvolveDirector 的技术原理

  • API数据获取:基于与高级模型的公共API交互,获取大量的文本-图像数据对。
  • VLM评估与指导:利用预训练的VLMs对生成的图像进行评估,选择与文本描述最匹配的图像,指导数据集的构建。
  • 动态数据集维护:在训练过程中,VLM持续评估基础模型的性能,根据评估结果动态更新训练数据集。
  • 智能选择:VLM选择与文本提示最匹配的图像,保留高质量数据,删除低质量或冗余数据。

如何运行 EvolveDirector

环境配置

  1. 首先克隆本仓库。
  2. 为EvolveDirector构建虚拟环境:
    conda create -n evolvedirector python=3.9
    conda activate evolvedirector
    pip install --upgrade pip
    pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu121
    pip install -r requirements.txt
    pip install -U transformers accelerate diffusers SentencePiece ftfy beautifulsoup4
    
  3. 为LLava构建虚拟环境:
    git clone https://github.com/haotian-liu/LLaVA.git
    cd LLaVA
    conda create -n llava python=3.10 -y
    conda activate llava
    pip install --upgrade pip
    pip install -e .
    

模型权重

  1. 下载Edgen模型权重、VAE和T5权重:https://huggingface.co/ruizhaocv/Edgen。在脚本"AdGenerator/base_img_gen.py"、"AdGenerator/extract_features.py"和训练配置中更改权重路径。
  2. 下载LLava权重:https://huggingface.co/liuhaotian/llava-v1.6-34b。在脚本"VLM/vlm_script.py"中更改权重路径。下载clip:https://huggingface.co/openai/clip-vit-large-patch14-336,并将其放在与LLava权重相同的父文件夹下。
  3. 下载高级模型权重,例如Playground 1.5:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic。在脚本"AdGenerator/advanced_gen_scripts/img_gen_playground.py"中更改权重路径。

使用示例

  1. 512px单尺度训练:

    CUDA_VISIBLE_DEVICES=0 python Synchronizer/server.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=0 python AdGenerator/base_img_gen.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=1 python AdGenerator/advanced_img_gen.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=1 python AdGenerator/advanced_gen_scripts/img_gen_playground.py --task_stamp dynamic_0000 --rank 0
    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_server.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_script.py --task_stamp dynamic_0000 --rank 0
    CUDA_VISIBLE_DEVICES=3 python /mnt/data/ruizhao/code/EvolveDirector/AdGenerator/extract_features.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4 python Train/train.py configs/evolve_director_512.py --work-dir output/evolve_director_512 --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4,5,6,7 python -m torch.distributed.launch --nproc_per_node=4 Train/train.py configs/evolve_director_512.py --work-dir output/EvolveDirector_512 --task_stamp dynamic_0000
    
  2. 1024px多尺度训练:

    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_script.py --task_stamp dynamic_0000 --rank 0 --multi_scale
    CUDA_VISIBLE_DEVICES=3 python /mnt/data/ruizhao/code/EvolveDirector/AdGenerator/extract_features.py --task_stamp dynamic_0000 --img_size 1024 --multi_scale
    CUDA_VISIBLE_DEVICES=4 python Train/train.py configs/evolve_director_1024.py --work-dir output/evolve_director_1024 --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4,5,6,7 python -m torch.distributed.launch --nproc_per_node=4 Train/train.py configs/evolve_director_1024.py --work-dir output/evolve_director_1024 --task_stamp dynamic_0000
    
  3. 推理:

    python Inference/inference.py --image_size=1024 \
     --t5_path "/path/to/Edgen" \
     --tokenizer_path "/path/to/Edgen/sd-vae-ft-ema" \
     --txt_file "Inference/text_prompts.txt" \
     --model_path "/path/to/Edgen/ckpt.pth" \
     --save_folder "output/test_model"
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
158 60
|
24天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
53 6
|
2月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
61 0
|
5月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
93 25
|
7月前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
388 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
7月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
166 5
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
226 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
200 0
|
达摩院 文字识别 物联网
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
286 0

热门文章

最新文章