理论到应用,朱军教授带团队解读扩散概率模型

简介: 理论到应用,朱军教授带团队解读扩散概率模型


2022 年以来,扩散模型成为计算机视觉领域最热门的话题之一。扩散模型在深度生成模型中自成一派,展示出强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。


迄今为止,扩散模型已被应用于各种生成式建模任务,如图像生成、图像超分、图像修复、图像编辑、图像转换等等。可以看到,这一方向的论文数量正在以非常快的速度增长,而扩散概率模型正是其中一个重要的类别。

在最新一期的线上分享中,机器之心邀请到了清华大学计算机系教授朱军为我们介绍关于扩散概率模型的最新进展。


分享主题:扩散概率模型的理论及应用

分享摘要:本次分享中将介绍朱军教授团队关于扩散概率模型的最新进展。首先,将简要介绍深度生成模型的基本原理和典型进展。然后,介绍扩散概率模型的两个代表性进展:第一个工作是《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》。该工作给出了扩散概率模型逆向过程最优均值和最优方差的解析解。该解析解表明了一个令人惊讶的结论是,最优均值和最优方差均由得分函数决定。因此,一个预训练好的得分模型便可同时估计最优均值和最优方差。此外,根据该解析解的形式,我们能界定出最优方差的上下界,并且在数值上表明该上下界是紧的。在实际中,通过估计最优的方差,我们能提升模型在密度估计上的性能,以及显著提升模型的采样速度。第二个工作是《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》。该工作从数学上推导出了扩散常微分方程模型(diffusion ODEs)的极其简洁的解的形式,并基于该形式设计了误差尽可能最小的高阶常微分方程求解器,称为 DPM-Solver。DPM-Solver 无需任何额外训练,并同时适用于连续时间情形与离散时间情形的扩散模型。实验结果表明,DPM-Solver 可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片,在不同分辨率的数据集中都取得了显著优于所有已有算法的加速效果。嘉宾简介:朱军,清华大学计算机系 Bosch AI 教授、人智所所长,瑞莱智慧联合创始人兼首席科学家,曾任卡内基梅隆大学兼职教授。长期从事机器学习研究,特别是概率机器学习、贝叶斯方法的基础理论、高效算法和编程库,并利用贝叶斯方法研究深度神经网络的对抗鲁棒性以及复杂环境下的决策学习等问题。担任 IEEE TPAMI 的副主编,ICML、NeurIPS、ICLR 等国际会议资深领域主席 / 领域主席 20 余次。曾获科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR 杰出论文奖等,入选万人计划领军人才、MIT TR35 中国先锋者、IEEE“AI’s 10 to Watch”、北京市优秀青年人才等,带领团队研制 “珠算” 深度概率编程库、“天授”强化学习库和 Ares 对抗攻防平台。获首届 “对抗样本攻防竞赛” 国际竞赛所有三个任务的冠军、ViZDoom 对抗决策国际竞赛 2018 年冠军等。鲍凡同学在扩散概率模型上做出了突出成果,他作为一作的论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》获得世界级学术奖项 ICLR 2022 杰出论文奖,是该会议首篇且唯一一篇由中国大陆单位独立完成的获奖论文。该项目产生了广泛的影响力,作为核心技术被应用到 OpenAI 发布的超大规模跨模态生成模型 DALL·E 2 上。他积极探索扩散概率模型的应用场景,在扩散模型的加速、可控生成、基本架构方面产出近十篇论文,在理论研究及实践应用上均有出色的成果贡献。路橙同学致力于研究扩散概率模型的底层原理与算法,他作为一作的论文《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》获得 Neurips 2022 Oral(接受率约 1.7%),是目前扩散模型无需额外训练的最快的采样算法,可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片。该项目在各大开源社区产生了广泛的影响,目前项目 Github 获得 300+ star,并已被扩散模型主流库 Diffusers 支持。该算法在 Stable-Diffusion 上仅仅使用 20-25 步就可生成极高质量的图片,是目前 Stable-Diffusion 在 huggingface spaces 的官方示例的默认采样算法,在 DreamStudio、StableBoost、Stable-Diffusion-WebUI 等各大 text-to-image 项目中也为公认的加速效果最好的算法。此外,他积极探索扩散概率模型的底层原理,在扩散常微分方程模型的最大似然训练算法、高阶去噪得分匹配算法等方面做出了重要的理论贡献。

相关文章
|
编译器
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
10480 0
|
12天前
|
数据采集 Java Go
爬虫项目该选 Python 还是 Golang?看这篇就够了
本文对比Python与Golang在爬虫开发中的七大维度:语法简洁性、第三方库丰富度(如Scrapy vs Colly)、并发性能(Goroutine vs GIL限制)、内存占用、代码可读性、数据处理能力(Pandas等优势)及部署便捷性(Go可直接编译为跨平台二进制),助你按需选型。
|
23天前
|
存储 弹性计算 并行计算
阿里云8核8G云服务器收费标准、实例规格及选配教程
阿里云8核8G云服务器是典型的均衡型配置,CPU与内存配比为1:1,这种配比能兼顾多任务并行计算和常规业务内存需求,既不会像低配置机型那样局限于轻量场景,也不会像高配置机型那样聚焦重度计算,因此广泛适配中小企业核心业务系统、中型网站部署、开发测试环境等场景。该配置仅在ECS云服务器系列中提供,无对应轻量应用服务器版本,2026年的收费标准会根据实例类型、计费方式、地域选择产生明显差异,优惠活动则聚焦长期购买折扣、续费保障及通用补贴,整体定价和福利均贴合不同用户的实际使用需求,无隐性消费和捆绑条件。
125 14
|
5月前
|
存储 机器学习/深度学习 弹性计算
阿里云服务器租用价格参考:2核4G/4核8G/8核16G价格与选型指南
阿里云服务器2核4G、4核8G、8核16G配置价格参考,目前,2核4G配置按量收费最低0.225元/小时,包年包月平均月价最低47.52元,按年购买u1实例2核4G5M带宽仅需199元且续费不涨价;4核8G配置按量收费最低降至0.45元/小时,包年包月平均月价最低159.84元;8核16G配置按量收费最低0.9元/小时,按月租用平均月价最低319.68元。云服务器实例规格和配置不同,收费标准与活动价格也不同,本文将为您介绍这三大配置的收费标准、活动价格及选型策略,以供选择参考。
|
6月前
|
机器学习/深度学习 数据采集 人工智能
基于PAI-ChatLearn的GSPO强化学习实践
近期,阿里通义千问团队创新性提出了GSPO算法,GSPO 算法与其他 RL 算法相比,定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。同时具有强大高效、稳定性出色、基础设施友好的突出优势。
|
7月前
|
存储 人工智能 机器人
让大语言模型在不知道答案时拒绝回答:KnowOrNot框架防止AI幻觉
在政府AI服务中,如何让系统在知识不足时恰当拒绝回答而非生成错误信息是一大挑战。KnowOrNot框架通过构建“知识库外”测试场景,评估AI是否能识别知识边界并合理拒答,从而提升AI服务的可靠性与安全性。
503 0
让大语言模型在不知道答案时拒绝回答:KnowOrNot框架防止AI幻觉
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。

热门文章

最新文章