理论到应用,朱军教授带团队解读扩散概率模型

简介: 理论到应用,朱军教授带团队解读扩散概率模型


2022 年以来,扩散模型成为计算机视觉领域最热门的话题之一。扩散模型在深度生成模型中自成一派,展示出强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。


迄今为止,扩散模型已被应用于各种生成式建模任务,如图像生成、图像超分、图像修复、图像编辑、图像转换等等。可以看到,这一方向的论文数量正在以非常快的速度增长,而扩散概率模型正是其中一个重要的类别。

在最新一期的线上分享中,机器之心邀请到了清华大学计算机系教授朱军为我们介绍关于扩散概率模型的最新进展。


分享主题:扩散概率模型的理论及应用

分享摘要:本次分享中将介绍朱军教授团队关于扩散概率模型的最新进展。首先,将简要介绍深度生成模型的基本原理和典型进展。然后,介绍扩散概率模型的两个代表性进展:第一个工作是《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》。该工作给出了扩散概率模型逆向过程最优均值和最优方差的解析解。该解析解表明了一个令人惊讶的结论是,最优均值和最优方差均由得分函数决定。因此,一个预训练好的得分模型便可同时估计最优均值和最优方差。此外,根据该解析解的形式,我们能界定出最优方差的上下界,并且在数值上表明该上下界是紧的。在实际中,通过估计最优的方差,我们能提升模型在密度估计上的性能,以及显著提升模型的采样速度。第二个工作是《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》。该工作从数学上推导出了扩散常微分方程模型(diffusion ODEs)的极其简洁的解的形式,并基于该形式设计了误差尽可能最小的高阶常微分方程求解器,称为 DPM-Solver。DPM-Solver 无需任何额外训练,并同时适用于连续时间情形与离散时间情形的扩散模型。实验结果表明,DPM-Solver 可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片,在不同分辨率的数据集中都取得了显著优于所有已有算法的加速效果。嘉宾简介:朱军,清华大学计算机系 Bosch AI 教授、人智所所长,瑞莱智慧联合创始人兼首席科学家,曾任卡内基梅隆大学兼职教授。长期从事机器学习研究,特别是概率机器学习、贝叶斯方法的基础理论、高效算法和编程库,并利用贝叶斯方法研究深度神经网络的对抗鲁棒性以及复杂环境下的决策学习等问题。担任 IEEE TPAMI 的副主编,ICML、NeurIPS、ICLR 等国际会议资深领域主席 / 领域主席 20 余次。曾获科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR 杰出论文奖等,入选万人计划领军人才、MIT TR35 中国先锋者、IEEE“AI’s 10 to Watch”、北京市优秀青年人才等,带领团队研制 “珠算” 深度概率编程库、“天授”强化学习库和 Ares 对抗攻防平台。获首届 “对抗样本攻防竞赛” 国际竞赛所有三个任务的冠军、ViZDoom 对抗决策国际竞赛 2018 年冠军等。鲍凡同学在扩散概率模型上做出了突出成果,他作为一作的论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》获得世界级学术奖项 ICLR 2022 杰出论文奖,是该会议首篇且唯一一篇由中国大陆单位独立完成的获奖论文。该项目产生了广泛的影响力,作为核心技术被应用到 OpenAI 发布的超大规模跨模态生成模型 DALL·E 2 上。他积极探索扩散概率模型的应用场景,在扩散模型的加速、可控生成、基本架构方面产出近十篇论文,在理论研究及实践应用上均有出色的成果贡献。路橙同学致力于研究扩散概率模型的底层原理与算法,他作为一作的论文《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》获得 Neurips 2022 Oral(接受率约 1.7%),是目前扩散模型无需额外训练的最快的采样算法,可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片。该项目在各大开源社区产生了广泛的影响,目前项目 Github 获得 300+ star,并已被扩散模型主流库 Diffusers 支持。该算法在 Stable-Diffusion 上仅仅使用 20-25 步就可生成极高质量的图片,是目前 Stable-Diffusion 在 huggingface spaces 的官方示例的默认采样算法,在 DreamStudio、StableBoost、Stable-Diffusion-WebUI 等各大 text-to-image 项目中也为公认的加速效果最好的算法。此外,他积极探索扩散概率模型的底层原理,在扩散常微分方程模型的最大似然训练算法、高阶去噪得分匹配算法等方面做出了重要的理论贡献。

相关文章
|
5月前
|
存储 人工智能 机器人
让大语言模型在不知道答案时拒绝回答:KnowOrNot框架防止AI幻觉
在政府AI服务中,如何让系统在知识不足时恰当拒绝回答而非生成错误信息是一大挑战。KnowOrNot框架通过构建“知识库外”测试场景,评估AI是否能识别知识边界并合理拒答,从而提升AI服务的可靠性与安全性。
367 0
让大语言模型在不知道答案时拒绝回答:KnowOrNot框架防止AI幻觉
|
10月前
|
机器学习/深度学习 编解码 BI
YOLOv11改进策略【Conv和Transformer】| CVPR-2023 BiFormer 稀疏自注意力,减少内存占用
YOLOv11改进策略【Conv和Transformer】| CVPR-2023 BiFormer 稀疏自注意力,减少内存占用
417 3
YOLOv11改进策略【Conv和Transformer】| CVPR-2023 BiFormer 稀疏自注意力,减少内存占用
|
11月前
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
机器学习/深度学习 人工智能 机器人
智能废物管理系统:城市垃圾的自动化处理
【10月更文挑战第24天】智能废物管理系统利用物联网、大数据、人工智能和自动化机器人等技术,实现城市垃圾从分类、收集到处理的全过程自动化,提高处理效率,优化资源配置,提升居民参与度,降低运营成本,推动城市可持续发展。
1388 2
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品广告投放优化的深度学习模型
使用Python实现智能食品广告投放优化的深度学习模型
385 0
|
存储 NoSQL 分布式数据库
【HBase入门与实战】一文搞懂HBase!
该文档介绍了HBase,一种高吞吐量的NoSQL数据库,适合处理大规模数据。HBase具备快速读写、列式存储和天然支持集群部署的特点,常用于高并发场景。NoSQL与关系型数据库的主要区别在于数据模型、查询语言和可伸缩性。HBase的物理架构包括Client、Zookeeper、HMaster和RegionServer,其中RegionServer管理数据存储。HBase的读写流程利用MemStore和Bloom Filter提高效率。此外,文档还提到了HBase的应用,如时间序列数据、消息传递和内容服务。
3309 1
【HBase入门与实战】一文搞懂HBase!
|
机器学习/深度学习 存储 数据可视化
使用MATLAB进行数值计算的技术指南
【6月更文挑战第4天】MATLAB是款强大的数值计算软件,适用于工程计算、科学分析和数据分析。本文介绍了MATLAB的基础,包括界面、变量和数组、基本运算。接着讲解了MATLAB在数值计算的应用,如线性代数(求解线性方程组)、微积分(函数积分)和数据分析可视化(绘制图形)。MATLAB还支持高级应用,如外部设备通信和机器学习。通过学习,用户能更高效地进行数值计算和数据分析。
|
人工智能 API Python
极智AI | 再谈昇腾CANN量化
大家好,我是极智视界,本文介绍一下 再谈昇腾CANN量化。
432 1
|
消息中间件 供应链 Java
Kafka的发布-订阅功能: Java实现与应用场景解析
Kafka的发布-订阅功能: Java实现与应用场景解析
484 0
|
SQL 关系型数据库 MySQL
性能提高20倍!MySQL排序引起的性能问题及解决方案
负责公司的用户收藏服务,收到调用方反馈有read time out的情况,进行排查发现是某用户收藏数量太多引起的(有业务设计上的问题,正常应只保留有限时间的收藏或者限制用户收藏的数量),一般用户收藏数是不超过100的,查询耗时是几毫秒,该用户收藏数2W+,查询耗时接近200毫秒。
4137 0