J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

简介: J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

image.png今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文。该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非常重要,但是目前预测蛋白质溶解度的方法大多基于氨基酸的一维嵌入,仅限于捕获空间结构信息。针对上述问题,作者开发了一种新的结构感知方法——GraphSol,通过注意力图卷积网络(GCN)预测蛋白质的溶解度,其中蛋白质拓扑结构属性图是通过预测序列的接触图构建的,结果显示GraphSol明显优于其他基于序列的方法。


1


介绍


近20年来,蛋白质的溶解度在生物技术和制药工业的蛋白质生产中起着重要作用。现有的预测蛋白质溶解度的计算方法主要是:基于物理的方法和基于机器/深度学习的方法。在基于物理的技术方面,大多数工作集中在利用分子动力学模拟来评估(聚集和溶解状态间)的自由能差,但这些方法通常准确性有限。而对于机器/深度学习技术,大部分方法主要基于LSTM和CNN,没有利用蛋白质分子的空间信息。


随着蛋白质结构预测的最新发展,蛋白质接触图的预测效果得到改善,预测的蛋白质接触图可以高精度地表示2D结构特征。在这项研究中,作者通过结合预测的接触图和图神经网络,以新颖的结构感知方法GraphSol预测蛋白质的溶解度。作者表明这是第一项通过图神经网络对蛋白质进行基于序列的溶解度预测的研究,并且该结构可以轻松应用于蛋白质的广泛任务中,例如蛋白质功能预测,蛋白质-蛋白质相互作用预测,蛋白质折叠和药物设计。


2


模型


这项工作中,作者将蛋白质溶解度预测任务转换为基于图的回归问题。给定一个由????个氨基酸组成的蛋白质序列,整个蛋白质因此可以表示为拓扑属性图????(????,????),其中F代表所有残基(节点)的特征集,????代表残基接触(边缘)。根据预测的蛋白质接触图,通过图卷积神经网络模型输出预测的溶解度。


GraphSol模型包括三个部分。如图1所示,第一部分是图卷积网络(GCN),它在迭代过程中从其节点和边缘聚合蛋白质结构信息。第二部分是一个自注意层,它将不同大小的节点隐藏状态转换为具有固定大小的图形表示向量。最后,这个固定大小向量将经过全连接层以预测蛋白质的溶解度。

image.png

图1 GraphSol


3


实验


数据集


为了训练模型,作者使用了eSOL数据集,共有2737种蛋白质序列。从这些序列中,随机选择75%(2052个蛋白)作为训练集,其余685个蛋白用作独立测试。对于外部独立测试,作者选择了从酿酒酵母中收集的另一个蛋白质数据集。该数据集是通过包含108种具有相应3D结构的蛋白质而得出的。数据集考虑了如表1所示的四种节点特征。

image.png

表1 数据集节点特征


实验结果


作者测试了eSOL数据集上GraphSol模型的性能。如表2所示,对于5折CV和独立测试,获得的R2值分别为0.476±0.014和0.483。当通过0.5的临界值将数据集分为两个离散状态(可溶或不可溶)时,对于5折CV和独立测试,AUC值分别为0.855和0.866, CV和独立测试的相似结果表明了GraphSol模型的鲁棒性。为了表明特征组的重要性,作者在消融研究中通过3种方式评估了性能。如表2所示,当将单个要素组用作节点要素时,在独立测试中,HHM产生的R2最高。预测的结构特征组(SPIDER3)的性能最差。相反,当去除单个基团时,去除SPIDER3导致最大的下降,这可能是因为SPIDER3提供了唯一的结构信息,而其他功能则具有补充功能。当通过递归添加特征组来评估模型时,模型会随着每个特征组的添加而显示出递增的性能。添加SPIDER3特征后,性能迅速提高,这反映了溶解度和结构特征之间的关系。

image.png

表3 方法比较


4


总结


这项研究中,作者提出了一种基于序列的预测蛋白质溶解度的方法GraphSol。与其他方法相比,GraphSol利用了预测的蛋白质接触图,该图在连接蛋白质拓扑属性和注意力图神经网络中发挥了关键作用。作者指出,残基之间的预测接触概率比离散状态更能表示成对关系,这种方法在蛋白质功能预测、蛋白质相互作用预测、蛋白质折叠和药物设计等蛋白质属性预测方面具有潜在的应用价值。


目录
相关文章
|
2月前
|
机器学习/深度学习 运维 安全
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
金融交易网络与蛋白质结构的共同特点是它们无法通过简单的欧几里得空间模型来准确描述,而是需要复杂的图结构来捕捉实体间的交互模式。传统深度学习方法在处理这类数据时效果不佳,图神经网络(GNNs)因此成为解决此类问题的关键技术。GNNs通过消息传递机制,能有效提取图结构中的深层特征,适用于欺诈检测和蛋白质功能预测等复杂网络建模任务。
85 2
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
|
3月前
|
机器学习/深度学习 算法
贝叶斯线性回归:概率与预测建模的融合
本文探讨了贝叶斯方法在线性回归中的应用,从不确定性角度出发,介绍了如何通过概率来表达变量间关系的不确定性。文章首先回顾了古希腊天文学家使用本轮系统模拟行星运动的历史,并将其与傅里叶级数分解方法类比,强调了近似的重要性。接着,通过高斯分布和贝叶斯推断,详细讲解了线性回归中的不确定性处理方法。文章使用Howell1数据集,展示了如何构建和拟合高斯模型,并通过先验预测模拟验证模型合理性。最后,介绍了多项式回归和样条方法,展示了如何逐步增加模型复杂性以捕捉更细微的数据模式。贝叶斯方法不仅提供了点估计,还提供了完整的后验分布,使得模型更具解释性和鲁棒性。
58 1
贝叶斯线性回归:概率与预测建模的融合
|
8月前
|
编解码 人工智能 自然语言处理
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
AlphaFold3是DeepMind的蛋白质结构预测软件,它引入扩散模型以提升预测准确性。扩散模型通过逐步添加和去除噪声来理解和生成数据,应用广泛,包括图像、音频、文本和时间序列数据的处理。在图像领域,它们擅长合成、编辑和超分辨率;在文本处理中,扩散模型在代码合成和问答任务中表现出色;在音频和视频生成方面也有重要应用;同时,它们在时间序列预测和增强模型鲁棒性方面也展现出潜力。随着技术发展,扩散模型将在更多领域发挥作用。
279 0
|
8月前
|
机器学习/深度学习 安全 算法
Matlab基于SEIRD模型,NSIR预测模型,AHP层次分析法新冠肺炎预测与评估分析
Matlab基于SEIRD模型,NSIR预测模型,AHP层次分析法新冠肺炎预测与评估分析
|
8月前
R语言Lee-Carter模型对年死亡率建模预测预期寿命
R语言Lee-Carter模型对年死亡率建模预测预期寿命
|
8月前
|
算法 Python
利用贝叶斯算法对简单应用实现预测分类
利用贝叶斯算法对简单应用实现预测分类
|
8月前
|
机器学习/深度学习 算法
R语言隐马尔可夫模型HMM识别股市变化分析报告
R语言隐马尔可夫模型HMM识别股市变化分析报告
|
8月前
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
|
8月前
R语言马尔可夫转换模型研究交通伤亡人数事故预测
R语言马尔可夫转换模型研究交通伤亡人数事故预测
运筹学基础——预测
运筹学基础——预测
132 0

热门文章

最新文章