AAAI 2022 | 浙大提出KCL: 化学元素知识图谱指导下的分子图对比学习

简介: AAAI 2022 | 浙大提出KCL: 化学元素知识图谱指导下的分子图对比学习
来自浙江大学的研究者通过领域知识来指导分子图对比学习。


近年来,生物医学领域开始将分子图表示学习应用于生物医药相关的多种下游任务,例如分子属性预测和药物设计。图对比学习方法无需设计复杂的预训练任务,通过从大规模无监督数据中挖掘自身监督信息来学习图的表示。与图像不同,分子图上的对比学习方法面临独特的挑战。首先,图的结构和语义信息在不同领域中差异显著,因此难以设计通用的图增强方案。尤其是对于分子图,化学键或官能团的添加或删除将在很大程度上改变分子的身份和特性。目前图对比学习的大多数方法主要关注图的拓扑结构,很少考虑图中蕴含的领域知识。另一个易被忽略的问题在于,分子图中的原子通常被建模为只有彼此之间存在化学键时才会产生联系的个体,未能考虑原子之间隐含的关联性(例如,具有相同性质的原子之间的共性)。

为解决以上问题,来自浙江大学的研究者通过领域知识来指导分子图对比学习

首先,为了建立元素之间的微观联系及各元素的基本领域知识,该研究基于化学元素周期表,构建了化学元素知识图谱 (Chemical Element Knowledge Graph)。如下图所示,化学元素知识图谱描述了元素(图中绿色部分)之间的关系及其基本的化学性质(例如,周期性、金属性,图中红色部分)。

化学元素知识图谱建立了未通过化学键相连但化学性质有所关联的原子之间的联系

然后,该研究通过化学元素知识图谱指导原始分子图的图增强过程,有助于在不相邻但具有相同性质的原子之间建立联系。通过这种方法,增强的分子图既包含拓扑结构知识,又具备元素基本的化学领域知识。基于该化学元素知识图谱,本文创新性地提出一种知识增强的分子图对比学习框架 Knowledge-enhancedContrastive Learning (KCL)。KCL 利用化学元素知识图谱指导原始分子图的增强过程,并针对分子增强图设计了知识感知的消息传递网络 KMPNN,通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失以优化模型。实验结果表明,KCL 在涵盖不同分子属性的 8 个数据集上获得了 SOTA 性能。



方法

KCL 框架图

具体来说,KCL 框架分为三个模块。

(1)知识指导的图增强

知识指导的图增强模块利用化学元素知识图谱指导原始分子图的增强过程,使分子增强图不仅包含拓扑结构知识,还包含元素的基本领域知识。

Chemical Element KG Construction: 该研究从化学元素周期表中获取所有化学元素及其基本化学性质。每个元素具有 15 个以上的性质,包括金属性、周期性、状态、重量、电负性、电子亲和力、熔点、沸点、电离、半径、硬度、模量、密度、导电、热量和丰度。提取出的三元组以 (Gas, isStateOf, Cl) 的形式存在于 KG 中,代表元素和性质之间存在指定的关系。

化学元素知识图谱的统计信息

Graph Augmentation: 对于原始分子图中的每一个原子,找出在化学元素知识图谱中将该原子作为尾实体的三元组。将这些三元组中的头实体作为新节点,关系作为头实体(性质)和尾实体(元素 / 原子)之间的边,获得分子增强图。分子增强图作为原始分子图的正样本,包含更丰富复杂的信息,能够捕捉原子之间的微观联系。

(2)知识感知的图表示

知识感知的图表示模块针对分子增强图设计了知识感知的消息传递网络 KMPNN,以更好的传递和融合增强图中两种不同类型的知识。

Knowledge Feature Initialization: 该研究采用常用的 KGE 方法,RotateE,对分子增强图中性质和关系节点进行初始化。

KMPNN Encoder: KMPNN 针对不同类型的邻居,提供了两种不同类型的消息传递,并根据邻居的重要性程度为其分配不同的注意力。通过 KMPNN,可获得分子增强图的表示。算法 1 描述了 KMPNN 的编码过程:

知识感知的消息传递网络 KMPNN 的编码过程

GNN based Encoder: 对于原始分子图,采用 GNN 模型学习其表示。

(3)对比目标

对比目标模块通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失,以优化表示模型。

Projection Head: 将原始分子图和分子增强图的表示映射到同一潜在特征空间,以便计算对比损失。

Negative Mining: 利用难负样本挖掘技术,选择在分子指纹空间中距离相近的分子图及其分子增强图作为负样本。

Contrastive Loss: 一个训练批次中某分子及其分子增强图所构成的正样本对的损失函数可表示为:


实验
(1)数据集

为了验证 KCL 的效果,该研究在 MoleculeNet 的 8 个基准数据集上进行评测,数据集具体信息如下所示:

数据集信息

(2)实验结果

该研究分别在 fine-tune protocol 和 linear protocol 两种设定下进行了实验。实验表明,KCL 在两种设定下均比以往分子图表示学习方法效果更佳。

Fine-tune protocol 效果

Linear protocol 效果
总结与展望

本文旨在将基本化学领域知识融入分子图表示学习中。该研究构建了化学元素知识图谱以建立元素之间的微观联系,并提出一种知识指导的分子图对比学习框架—KCL。实验证明了 KCL 在 fine-tune protocol 和 linear protocol 两种设定下的有效性,并表明 KCL 相对以前的方法具有更好的可解释性和表达能力。

该研究将在以下几个方面扩展此工作。将引入不同粒度的领域知识以丰富化学元素知识图谱;将使用更深层次的知识表达手段,如 OWL2,为化学元素知识图谱加入描述逻辑;将发布多语言版本的开放数据集,持续更新化学元素知识图谱。

相关文章
|
网络协议 Ubuntu
如何修改wsl的Ubuntu的dns,固定dns
本文介绍了如何在 WSL 中配置网络设置。首先,修改 `/etc/wsl.conf` 文件,添加 `generateResolvConf = false`。其次,编辑 `/etc/resolv.conf` 文件,指定 DNS 服务器地址。最后,重启 WSL 即可生效。
1711 2
|
SQL 机器学习/深度学习 数据挖掘
云端数据科学平台Deepnote,相当于云上的Jupyter Note
云端数据科学平台Deepnote,相当于云上的Jupyter Note
702 0
|
安全 网络协议 Linux
本文详细介绍了 Linux 系统中 ping 命令的使用方法和技巧,涵盖基本用法、高级用法、实际应用案例及注意事项。
本文详细介绍了 Linux 系统中 ping 命令的使用方法和技巧,涵盖基本用法、高级用法、实际应用案例及注意事项。通过掌握 ping 命令,读者可以轻松测试网络连通性、诊断网络问题并提升网络管理能力。
1092 3
|
10月前
|
人工智能 运维 监控
2025年阿里云服务器配置选择全攻略:CPU、内存、带宽与系统盘详解
在2025年,阿里云服务器以高性能、灵活扩展和稳定服务助力数字化转型,提供轻量应用服务器、通用型g8i实例等多样化配置,满足个人博客至企业级业务需求。针对不同场景(如计算密集型、内存密集型),推荐相应实例类型与带宽规划,强调成本优化策略,包括包年包月节省成本、ESSD云盘选择及地域部署建议。文中还提及安全设置、监控备份的重要性,并指出未来可关注第九代实例g9i支持的新技术。整体而言,阿里云致力于帮助用户实现性能与成本的最优平衡。 以上简介共计238个字符。
|
算法
海明码详解
本文详细介绍了海明码(Hamming Code)的概念、原理和应用,包括信息位与校验位的关系、校验位的计算方法、错误检测与纠正过程,并通过实例展示了如何使用海明码进行编码,突出了海明码在提高数据传输可靠性方面的重要性。
1524 0
海明码详解
|
机器学习/深度学习 数据库 数据格式
深度学习之化学反应预测
基于深度学习的化学反应预测是通过深度神经网络模型来分析和预测化学反应的过程及其产物。传统的化学反应预测依赖于专家知识和实验验证,而深度学习的引入使得可以从大规模的化学数据中自动学习复杂的反应规律,提升预测的精度与效率。
526 3
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
799 1
|
机器学习/深度学习 人工智能 自然语言处理
claude3.5官网入口 - Claude3.5 Sonnet国内使用教程
在这个信息爆炸的时代 💥,我们每天都被海量的数据和信息包围 🌊。如何高效地处理信息、获取知识、提升效率,成为了现代人面临的巨大挑战 💪