Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字(2)

简介: Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

DALL-E的复制品(体积更小,对架构和数据的调整很少)。数据包括Conceptual 12MConceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。2021-2022Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。例如512x512CLIP-guided diffusionVQGAN-CLIPOpen domain image generation and editing with natural language guidance,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。2022 年 4 月论文《具有 CLIP 潜能的分层文本条件图像生成》发表该论文介绍了DALL-E 2。它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。

「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案2022 年 5-6 月5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。这两篇论文中,介绍了Imagegen和Parti。以及谷歌对DALL-E 2的回答。

「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2022年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。用户仍继续尝试DALL-E mini等较小的模型。紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化2022 年 8 月Stability.ai发布Stable Diffusion模型。

在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。

这个模型可以实现与DALL-E 2同等的照片级真实感。除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。2022 年 8 月谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。DreamBooth提供了对扩散模型越来越细粒度的控制。然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。2022 年 10 月最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。参考资料:https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

相关文章
|
2月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
751 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
8月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
558 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
3月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
314 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1140 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
3月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
259 10
|
9月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
498 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
3月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
486 1
|
9月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
481 0
|
8月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
2385 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
8月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1054 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现

热门文章

最新文章