DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持定制化漫画生成,用户可根据文本提示和角色图像生成漫画。
  2. 技术:整合MLLM和扩散模型,通过掩码交叉注意力机制实现精确布局控制。
  3. 应用:适用于漫画创作、个性化内容生成、教育和培训等多个场景。

正文(附运行示例)

DiffSensei 是什么

公众号: 蚝油菜花 - DiffSensei

DiffSensei 是由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持对漫画中多角色外观和互动的精确控制。

通过掩码交叉注意力机制和MLLM适配器,DiffSensei 能够根据文本提示动态调整角色特征,包括表情、姿势和动作,生成具有连贯性和视觉吸引力的漫画面板。此外,DiffSensei 还引入了 MangaZero 数据集,支持多角色、多状态的漫画生成任务。

DiffSensei 的主要功能

  • 定制化漫画生成:根据用户提供的角色图像和文本提示生成漫画,支持用户对角色的外观、表情、动作进行定制。
  • 多角色控制:框架支持多角色场景的漫画生成,处理角色间的互动和布局。
  • 文本兼容的身份适配:基于MLLM,根据文本提示动态调整角色特征,让角色的表现与文本描述相匹配。
  • 精确布局控制:通过掩码交叉注意力机制,精确控制角色和对话的布局,无需直接像素传输。
  • 数据集支持:引入 MangaZero 数据集,支持多角色、多状态的漫画生成任务。

DiffSensei 的技术原理

  • 整合MLLM和扩散模型:结合MLLM作为文本兼容的身份适配器和基于扩散的图像生成器,生成定制化的漫画面板。
  • 掩码交叉注意力(Masked Cross-Attention):通过复制关键和值矩阵,在每个交叉注意力层中创建独立的角色交叉注意力层,实现角色布局的精确控制。
  • 对话布局编码(Dialog Layout Encoding):引入可训练的嵌入层表示对话布局,将对话嵌入与噪声潜在表示相结合,实现对话位置的编码。
  • MLLM作为特征适配器:MLLM接收源角色特征和面板标题作为输入,生成与文本兼容的目标角色特征,动态调整角色状态。
  • 多角色特征提取:使用CLIP和图像编码器提取局部图像特征和图像级特征,避免直接从参考图像编码细粒度空间特征。
  • 扩散损失和语言模型损失:在训练MLLM时,计算语言模型损失(LM Loss)约束输出格式,均方误差损失(MSE Loss)指导基于面板标题的目标角色特征,计算扩散损失确保编辑后的特征与图像生成器保持一致。

如何运行 DiffSensei

安装

# 创建一个新的Conda环境
conda create -n diffsensei python=3.11
conda activate diffsensei
# 安装Pytorch和Diffusers相关包
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install -r requirements.txt
# 第三方库用于运行Gradio demo
pip install gradio-image-prompter

模型下载

Huggingface 下载 DiffSensei 模型,并将其放置在 checkpoints 文件夹中:

checkpoints
  |- diffsensei
    |- image_generator
      |- ...
    |- mllm
      |- ...

使用Gradio进行推理

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

如果内存有限,可以选择不使用MLLM组件的版本:

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio_wo_mllm \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
4天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
5403 18
|
16天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
8天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
4天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
8天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3440 10
PPT合集|Flink Forward Asia 2024 上海站
|
21天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5928 16
|
3天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
454 36
|
2天前
|
云安全 人工智能 安全

热门文章

最新文章