“一丹一世界”三等奖 | 绮影录 创作分享

简介: “一丹一世界”三等奖 | 绮影录 创作分享

  image.gif 编辑

 

大家好我是圆香芹,一位专注 A IGC图像领域的创作者,以下是一个简单的自我介绍:

image.gif 编辑

 

image.gif 编辑

 

非常荣幸,本次”绮影录”lora作品获得魔搭平台”一丹一世界风格lora大赛”三等奖!感谢魔搭平台与麦乐园的认可。作为非专业模型训练师,我由衷感谢魔搭社区与麦乐园降低了技术门槛,让我得以顺利进入这个领域。在此分享一些经验与心得。

 

1.对lora的看法

一直以来我们对lora模型的训练都望而却步,但其实我们把lora训练的流程拆解来看的话,无非就是三个步骤,素材、参数、测试最优选。

简单来说,训练LORA本质上是将你的审美偏好转化为数字编码的过程。你选择的训练图像质量越高,审美越独特,最终效果就越接近你心目中的理想状态。因此,数据收集与清洗阶段实际上决定了你模型的潜力上限。

 

2.见解

在参数调优方面,首要任务是评估基础大模型的固有优势。以麦橘超然为例,这个模型专门针对亚洲人脸进行了微调训练,着力改善胶皮质感,核心优势在于呈现真实质感。

在场景写实度上,原版 F lux DVE确实存在不足。基于这一认知,我在收集素材时将插画类与写实类素材混合使用。理由很简单:既然底层模型本身具有写实特性,它在写实表现上自然强于插画风格。利用这一特点,我们是否就能创造出一种介于真实与虚幻之间的独特质感呢?

训练绮影录时,我的目标就是打造超现实风格。我们都知道写实系大模型在超现实表现上通常较弱。那么,通过混合超现实插画与写实风格素材,再结合麦橘超然模型优秀的肢体表现能力,是否就能达到最佳的泛化效果?结果证明确实如此:最终的模型既能生成超现实插画,又能呈现写实质感的人像,同时显著减少了肢体畸变的问题。

 

3.参数与测试

魔搭平台的训练器已经相当友好。从我的测试经验来看,最关键的参数是学习率、rank d im和 A lpha。

对于类似绮影录这样的人像+风格类模型,学习率保持在5e-5最为理想。这个参数能够细腻地学习人像细节(如毛孔纹理),同时作为超现实风格模型,也能捕捉到整体画风。

更重要的是 rank d im和 A lpha的设置,我都选择了16。为什么这样配置?可以这样理解:rank d im就像一个立方体容器架构,数值越大,能容纳的细节就越多,反之越少。而容器越大,就越需要控制过拟合风险。Alpha则像一个水龙头开关,值越小,模型在生成图像时影响全局的权重就越小,反之越大。因此我选择了两者持平。

关于模型测试,找到最优选择可分几步进行。当训练出30个模型后,最佳选择通常不会是最后几个,因为模型训练质量并非线性提升。测试时应该使用不同权重配比进行多轮比较。重要的是,避免用训练集中的提示词测试,这没有太大意义,既然已经训练模型,直接测试泛化能力才更有价值。

绮影录展示图:

image.gif 编辑

 

再次感谢魔搭与麦乐员对我的认可,本次经验就分享到这里讲的不对的地方欢迎大伙锐评~

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区模型速递(4.20-4.26)
魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容
397 4
|
消息中间件 缓存 监控
spring boot 高级篇
spring boot 高级篇
699 1
|
8月前
|
人工智能 搜索推荐 API
AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营
4月24日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。
367 2
|
8月前
|
人工智能 自然语言处理 算法
"一丹一世界"一等奖 | 曙光_麦橘超然 创作分享
"一丹一世界"一等奖 | 曙光_麦橘超然 创作分享
202 4
|
8月前
|
存储 人工智能 编解码
"一丹一世界"二等奖 | MAJICFLUS_新浮世 创作分享
"一丹一世界"二等奖 | MAJICFLUS_新浮世 创作分享
231 2
"一丹一世界"二等奖 | MAJICFLUS_新浮世 创作分享
|
8月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1641 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
8月前
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
2116 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
8月前
|
人工智能 并行计算 测试技术
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。
801 2
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
|
8月前
|
人工智能 自然语言处理 监控
LongPort MCP:证券业首个券商MCP,AI赋能智能投资新时代,散户也能玩转机构级交易
LongPort MCP是长桥集团推出的证券行业首个券商模型上下文协议,通过标准化接口实现AI与金融服务的无缝对接,支持自然语言交互的智能投资服务。
1202 8
LongPort MCP:证券业首个券商MCP,AI赋能智能投资新时代,散户也能玩转机构级交易
|
8月前
|
人工智能 自然语言处理 物联网
"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光 创作分享
"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光 创作分享
266 7