扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程

简介: 扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程


机器之心编辑部

清华大学电子工程系城市科学与计算研究中心最新提出时空扩散点过程 ,突破已有方法建模时空点过程的受限概率形式和高采样成本等缺陷,实现了灵活、高效且易于计算的时空点过程模型,可广泛用于城市自然灾害、突发事故和居民活动等 时空事件的建模与预测,促进城市规划和管理的智能化发展。


时空点过程是具有时间和空间属性的随机事件集合,相关研究方法主要是对随机事件在时间和空间上的分布和演化规律进行建模,这对于许多领域都至关重要,包括地震学、疾病传播、城市流动、环境监测等。然而,以往的研究在建模时通常将时间和空间视为条件独立,无法准确捕捉事件时空之间的复杂相互作用,且计算对数似然需要使用蒙特卡罗来近似积分,这导致对时空点过程的理解和预测存在很大的局限性。

清华大学电子工程系城市科学与计算研究中心近日在 KDD2023 发表论文《Spatio-temporal Diffusion Point Processes》,提出时空扩散点过程(DSTPP)模型,率先实现了对复杂时空联合分布的灵活精准建模。由于不对概率密度函数的参数形式施加任何限制,这种基于扩散模型的点过程方法解决了当前时空建模的一系列困难问题,在捕捉复杂时空动态性方面具有很大潜力。该方法建立了新的生成式时空建模范式,为该领域的研究和应用带来了新的可能性。



针对时空点过程,研究团队提出了全新的参数化框架,利用扩散模型学习复杂的时空联合分布。该框架将目标联合分布的学习分解为多个步骤,每个步骤可由高斯分布准确描述。为了增强每个步骤的学习能力,研究团队在去噪网络中嵌入时空共注意力机制,使其能自适应地捕捉时间和空间复杂的依赖耦合关系。通过这一创新模型,研究团队首次突破了现有解决方案对时空依赖关系的建模限制,为时空点过程提供了新的建模范式。下表展示了 DSTPP 相比已有点过程解决方案的优势。

方法优势对比结果

大量来自流行病学、地震学、犯罪学和城市流动等各领域的实验表明,DSTPP 在性能上显著超越现有解决方案,平均提升幅度超过 50%。进一步深入分析验证了该模型适应不同场景下复杂时空耦合关系的能力。

这一创新研究成果为时空点过程建模提供了全新的思路和方法,具有重要的理论和应用价值。该模型的成功应用将为地震预测、疾病控制和城市规划等领域带来更准确的分析和预测能力,助力城市发展和人类福祉。

值得注意的是,该项目的论文、代码和数据集均已开源:

开源地址:https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processes

效果展示

下面展示了不同数据集(地震,高斯霍克斯过程,流行病传播)的去噪过程。

日本地震分布去噪

混合高斯霍克斯过程去噪


美国新泽西州疫情分布去噪


日本地震密度图


混合高斯霍克斯过程密度图


美国新泽西州疫情密度图


方法概览

扩散去噪建模框架

该框架首先设计时空编码器学习历史时空事件的表征,以该表征作为条件,DSTPP 旨在学习未来事件的时空联合分布模型。具体而言,对于序列中的每个事件,该方法将扩散过程建模为在空间和时间域上的马尔科夫过程,逐步向空间和时间值添加微小高斯噪声,直到它们被破坏城纯高斯噪声。在时空场景下,向时间和空间域添加噪声的过程类似于图像场景(噪声独立地应用于每个像素),DSTPP 通过以下方式在空间和时间域上分别进行独立扩散:

时空扩散过程

相反地,DSTPP 将下一步事件的预测建模为从第 K 步到第 0 步的逆向去噪迭代过程。时间和空间的去噪过程依赖于前一步中获得的彼此之间的信息,而下一步的预测值以时间和空间条件独立的方式进行建模,具体公式如下:

时空去噪过程

通过这种方式,DSTPP 成功将时空联合分布的建模分解为单步条件独立建模,而组合起来是联合建模的形式,实现了对时空联合分布的有效建模。下面罗列了 DSTPP 的训练和采样算法,这些算法训练稳定,易于实现。

训练及采样算法

网络架构

针对网络架构,研究团队在时空编码器部分提出使用基于 Transformer 的架构来学习历史时空表征,在时空扩散部分提出时空共注意力网络来参数化噪声预测网络。在每个去噪步骤中,时空共注意力网络同时执行空间和时间注意力,以捕捉二者之间的细粒度交互。不同去噪步骤共享相同的网络结构,都是基于历史表征,上一步预测得到的时空结果和去噪步数 k 的位置编码,来预测下一步的时空噪声。

网络结构图

实验结果

研究团队将 DSTPP 与最先进的时空点过程方法进行比较,并在 8 个数据集(所有数据集均已开源)进行了大量的实验。在连续空间情形下中,论文使用了两个仿真数据集和四个真实世界数据集,涵盖了广泛的领域,包括地震学,人类移动、流行病传播、城市单车使用,以及模拟的霍克斯高斯混合过程和风车结构数据。此外,论文还使用了两个真实世界的离散数据集,包括犯罪数据和出租车数据,它们的空间标签是离散的街区。

研究团队将所提的 DSTPP 与一系列最先进的建模方法进行对比,这些方法可以分为三类:空间点过程模型,时间点过程模型,时空点过程模型。针对时空点过程,可以自由组合已有的空间点过程和时间点过程来进行建模。结果显示,DSTPP 在所有数据集上的多个评估指标上均取得了最佳表现,相比最佳基线模型平均提升超过 50%。

似然和预测误差结果


为了更深入地理解去噪过程中的时空相互依赖关系,研究团队对共同注意力权重进行了深入分析。并构造一个新的的仿真数据集,该数据的时空两个维度是完全独立的,因此可以验证所设计的时空共同注意力机制是否可以学习不同的时空相互依赖关系。下图展示了在去噪过程中时间和空间维度在彼此和自身上的注意力权重变化情况。在时空耦合数据集上,随着去噪过程的进行,时间和空间维度逐渐向彼此分配注意力;而在时空独立数据集上,两个维度几乎没有相互分配注意力权重。这表明 DSTPP 可以自适应地学习时间和空间之间的各种相互作用机制。

时空注意力权重变化

团队信息

清华大学电子工程系城市科学与计算研究中心聚焦于城市科学与计算研究方向,以城市科学为基础研究问题,基于复杂系统、计算社会学等理论展开研究,结合数据科学、机器学习的新一代 “认知人工智能” 为核心技术,服务于城市孪生、城市治理、无线网络孪生等面向国家重大需求的应用领域。团队在 Nature 子刊等顶级国际期刊与 KDD、NeurIPS、WWW、UbiComp 等顶级国际会议发表学术论文 150 余篇(CCF A 类 70 余篇),文章引用 19000 余次,7 次获国际会议最佳论文 / 提名奖。团队近年来与华为、腾讯、美团、快手、高德、商汤、丰田以及移动运营商等各类商企也建立了良好的合作关系,各研究课题的研究成果得到了工业界与学术界的广泛认可,已部署于武警总部、中央网信办、公安部等国家重要部门。

相关文章
|
Java API Nacos
巧用网关白名单实现接口免鉴权
分享技术,用心生活 场景描述:一般系统中提供的接口都是经过统一配置鉴权的,比如不登录不能访问。但是,一些接口是需要开放给客户用的,我称作open API。那么这时候你不能要求客户先登录你的接口再去调用吧。那么,这时候就可以通过网关白名单来实现免鉴权
巧用网关白名单实现接口免鉴权
【微信公众平台对接】有关【上传图文消息内的图片获取URL】调用示例
【微信公众平台对接】有关【上传图文消息内的图片获取URL】调用示例
551 0
|
Java 数据库连接 应用服务中间件
【Maven】依赖范围、依赖传递、依赖排除、依赖原则、依赖继承
在Maven中,依赖范围(Dependency Scope)用于控制依赖项在编译、测试和运行时的可见性和可用性。通过指定适当的依赖范围,可以在不同的构建和执行环境中控制依赖项的加载和使用。
1646 1
|
6月前
|
算法 数据挖掘 API
《拼多多 API 助力,拼多多店铺商品好评率快速提升》
本文介绍如何利用拼多多开放平台API自动化管理商品评论,提升店铺好评率。通过获取评论数据、自动回复差评、数据分析与批量操作,商家可高效优化好评率,提升店铺曝光与转化。内容涵盖API使用步骤、优势及注意事项,助力商家实现数据驱动的精准运营,提升顾客满意度。
475 0
|
3月前
|
机器学习/深度学习 人工智能 机器人
焊接情况检测数据集(千张图片已划分)| 面向工业质检的目标检测训练集
总结来看,本次分享的焊接情况检测数据集为工业智能化提供了坚实的基础。数据集涵盖了“良好焊缝”、“不良焊缝”和“缺陷”三大类别,采用了标准的 YOLO 标注格式,保证了在目标检测任务中能够高效、准确地训练模型。通过合理划分训练集、验证集和测试集,开发者可以充分利用数据进行模型优化与验证,从而在实际工业生产环境中实现对焊接表面缺陷的自动检测与监控。
焊接情况检测数据集(千张图片已划分)| 面向工业质检的目标检测训练集
|
7月前
|
编解码 算法 数据安全/隐私保护
手机常用压缩工具推荐,RAR,ZIP,7Z解压缩,zip解压缩,Bandizip,ZArchiver等解压工具
在手机上解压RAR、ZIP、7Z等格式文件时,选择一款功能强大的解压缩工具至关重要。本文介绍了多款实用的解压软件,如7Z解压缩、ZArchiver、RAR、Bandizip等,它们不仅支持多种压缩格式的解压和压缩,还具备文件管理、加密、分享、媒体预览等功能。无论是处理文档、图片还是视频,这些工具都能提供高效便捷的解决方案,满足日常使用需求。
3002 0
|
10月前
|
前端开发 JavaScript 关系型数据库
2025 年前端与后端开发方向的抉择与展望-优雅草卓伊凡
2025 年前端与后端开发方向的抉择与展望-优雅草卓伊凡
779 5
2025 年前端与后端开发方向的抉择与展望-优雅草卓伊凡
|
安全 Java 数据库
在 Spring Boot 中如何优雅地实现多租户架构?
在 Spring Boot 中如何优雅地实现多租户架构?
2200 0
在 Spring Boot 中如何优雅地实现多租户架构?
|
编译器 C++ 开发者
通俗讲解 初学者一文看懂!虚函数、函数重载、重写的区别
函数重载允许在同一作用域内定义同名但参数列表不同的函数,提高代码灵活性和可读性,避免命名冲突。通过参数类型自动选择合适版本,如C++中的`print()`可处理整数、浮点数和字符串。虚函数实现运行时多态,基类指针调用时调用实际对象的版本。抽象类至少有一个纯虚函数,不能实例化,用于定义接口规范。抽象类和纯虚函数是构建多态和继承体系的基础,提供接口标准,减少代码冗余,增强代码清晰性和可维护性。
|
开发工具 数据安全/隐私保护
Centos6.5安装并配置samba服务
配置Samba服务,执行`yum -y install samba`。创建finance、sales、manager组及对应用户:user1, user2(finance组),user3(sales组),manager(manager组)。设定用户密码。创建共享目录,给予finance组对finance目录的读写权限,编辑`smb.conf`。manager拥有所有共享目录的读写权限。确保用户对其共享文件夹有完全权限,其他用户只读写。重启服务。共享/opt/public_share为share,创建无登陆权用户Tonny,允许所有用户读写,文件属主为Tonny。最后,重启服务。
306 0