arXiv | 图表示方法驱动大分子计算研究

简介: arXiv | 图表示方法驱动大分子计算研究

image.png

今天给大家介绍的是麻省理工学院(MIT)材料科学与工程系研究人员近期发表在arXiv上的一篇有关大分子表示的研究。作者提出一种大分子的图表示方法,为大分子的表示、比较和学习提供了一个通用框架;并实现了定量的化学信息决策和大分子化学空间的迭代设计。


介绍


生物大分子构成了生命的基础,是生存和生长的强大动力。单个大分子是由单体,用于连接的键及空间排列组合而成。研究人员通过改变单体,键和拓扑结构(线性和非线性,如支链形,星形和瓶刷形)探索了广阔的化学空间。与用于表示小分子的SMILES类似,大分子可以用线性表示法表示。但如蛋白质和DNA/RNA的线性生物大分子例外,它们通常用单个或三个字母的单体编码的序列表示。但这些方式常常受到其化学空间的覆盖范围以及支持所有拓扑结构的能力的限制,并且常常要根据单体的不同而重新设计表示方式。


近年来,有许多利用序列比对,编辑距离,线性核和深度学习方法计算大分子相似性的工作,但这些方法仅限于生物大分子,不能扩展到一般的大分子化学空间,并且现有的用于生物大分子的工具不允许掺入非天然单体,除了聚糖特异性工具之外,也不能处理非线性拓扑结构。


这项工作中,作者提出了一种用于表示大分子的图表示方法,使用带有Tanimoto化学相似性矩阵和传播图核(propagation graph kernels)的图编辑距离(graph edit distances,GEDs)来计算图相似性。此外,还针对不同的任务训练了一套图神经网络模型,在聚糖数据集上取得了最好的结果。


模型


作者使用通用文本文件格式将大分子结构转换为机器可读格式。文本文件包含3个部分-SMILES,MONOMERS和BONDS。然后将大分子解析成带有节点和边属性的NetworkX图,使用立体化学扩展连通性指纹对单体和键分子进行特征化。这种表示方式使大分子在其原生状态下的立体化学和拓扑的明确功能化的描述成为可能,并提供了一个单一的框架来表示天然和合成、线性和非线性大分子。

image.png

图1 大分子的图表示


利用这种独特的表示方式,作者使用精确的GED评分与Tanimoto相似性替换矩阵,以及图核,来计算2个或多个大分子图之间的相似性(图1B)。GED通过分配节点和边替换的分数来计算两个图之间的相似度。并且使用Tanimoto相似度矩阵代替基于进化统计的替换矩阵,计算分子指纹之间的相似度(图2A,B)。为了解决计算GED成本高的问题,作者使用传播属性核来获得大型数据集的相似度矩阵。此外,作者还分析了聚糖数据集的相似性向量。在GraKeL中实现的传播属性核用于计算相似度(图2C)。该核为大分子图提供了绝佳的选择,因为它们捕获了本地节点信息并沿边缘迭代地传播了这些信息。以这种方式,核捕获了大分子的局部单体化学和整体拓扑。

image.png

图2 聚糖具有广泛的化学相似性


作者提出降维更多地受分类学分类的影响,而不是免疫原性的影响。在图2D中,作者按域着色绘制,可以观察到域的排列与进化过程相似,从中心的细菌开始,然后是真核生物,然后在边缘出现病毒,可以看出,免疫原性是属于特定结构域的聚糖的结果,例如细菌具有免疫原性。


实验


作者针对指纹,one-hot节点和边属性训练了5种GNN模型架构,以针对免疫原性和8个分类标准对聚糖进行分类。对于每个任务,作者评估了分类指标,该分类指标通过对至少具有5个随机初始化种子的前5个超参数集重新训练的模型进行平均化获得(表1)。实验表明,该模型获得了最好的结果,并且表现优于文献报道的指标。


表1 在测试数据集上获得最佳模型属性组合的度量

image.png

总结

大分子图表示与分子指纹、图相似性和GNN相结合,提供了一个表示、计算相似性和机器学习大分子的框架。这项工作为大分子的计算研究提供了一种化学方法。在不久的将来,作者将在包括蛋白质和DNA / RNA在内的各种大分子数据集上验证该模型的适用性。

目录
相关文章
|
2月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
43 7
|
8月前
|
算法 计算机视觉 异构计算
基于直方图相似性的图像分类算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容包含了一段关于图像处理算法的摘要,主要包括: 1. 展示了MATLAB和FPGA的测试结果图像,显示了图像读取完成的标志和相似性指标,其中图1与图2有较强相似性,图1与图3相似性较弱。 2. 算法使用的是vivado 2019.2和matlab 2022A版本。 3. 算法原理涉及图像直方图统计和直方图相似性度量,通过计算直方图的差异来衡量图像相似度,FPGA实现包括图像采集、直方图计算、比较和分类决策步骤。 4. 提供了一个部分核心Verilog程序,用于读取图像数据并在FPGA上进行直方图相似性计算。
|
8月前
|
算法 自动驾驶 计算机视觉
基于FPGA的图像Robert变换实现,包括tb测试文件和MATLAB辅助验证
基于FPGA的图像Robert变换实现,包括tb测试文件和MATLAB辅助验证
|
8月前
|
tengine 人工智能 算法
极智AI | 量化实验分享四:Data-Free Quantization香不香?详解高通DFQ量化算法实现
大家好,我是极智视界,本文剖析一下高通 DFQ (Data-Free Quantization) 量化算法实现,以 Tengine 的实现为例。
340 1
|
机器学习/深度学习 算法
如何解决图神经网络过相关?一个IBM的新视角!
如何解决图神经网络过相关?一个IBM的新视角!
151 0
|
机器学习/深度学习 人工智能 架构师
AI框架跟计算图什么关系?PyTorch如何表达计算图?
目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 本节将会以AI概念落地的时候,遇到的一些问题与挑战,因此引出了计算图的概念来对神经网络模型进行统一抽象。接着展开什么是计算,计算图的基本构成来深入了解诶计算图。最后简单地学习PyTorch如何表达计算图。
206 0
|
机器学习/深度学习 算法 数据可视化
【Pytorch神经网络实战案例】15 WGAN-gp模型生成Fashon-MNST模拟数据
使用WGAN-gp模型模拟Fashion-MNIST数据的生成,会使用到WGAN-gp模型、深度卷积GAN(DeepConvolutional GAN,DCGAN)模型、实例归一化技术。
691 0
|
机器学习/深度学习 存储 自然语言处理
10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本
10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本
261 0
|
机器学习/深度学习 编解码 算法
异构图 Link 预测 理论与DGL 源码实战
异构图 Link 预测 理论与DGL 源码实战
异构图 Link 预测 理论与DGL 源码实战
|
机器学习/深度学习 人工智能 测试技术
各种形式的图神经网络的实现和基准测试
各种形式的图神经网络的实现和基准测试
191 0
各种形式的图神经网络的实现和基准测试

热门文章

最新文章