预测蛋白质间相互作用更准确、更细致,一个基于基因本体术语集的Transformer框架

简介: 预测蛋白质间相互作用更准确、更细致,一个基于基因本体术语集的Transformer框架

蛋白质-蛋白质相互作用(PPI)在多种生物过程中发挥关键作用,它的应用可以极大促进药物开发、疾病治疗、医学诊断等领域的发展;然而,只有一小部分相互作用通过实验进行了鉴定。此外,已知检测 PPI 的高通量实验技术会受到各种限制,例如较大的假阳性和假阴性率。源自基因本体(Gene Ontology,GO)注释的语义相似性被认为是蛋白质相互作用最有力的指标之一。尽管近年来预测 PPI 的计算方法已经逐渐发展起来,但大多数方法都未能捕捉到 GO 术语的特异性。南安普顿大学(University of Southampton)的研究人员提出了 TransformerGO,一种能够使用注意力机制动态捕获 GO 集之间语义相似性的模型。他们使用一种算法框架为 GO 术语生成密集图嵌入,该算法框架用于学习称为 node2vec 的网络中节点的连续表示。TransformerGO 学习带注释的术语之间的深层语义关系,并且可以高精度地区分消极和积极的交互。TransformerGO 在黄金标准 PPI 数据集上的经典语义相似性测量,以及在酿酒酵母和智人的大型数据集上的评估,均优于基于机器学习的最先进方法。研究人员还展示了嵌入在转换器架构中的神经注意机制,如何在预测交互时检测相关的功能项。该研究以「TransformerGO: predicting protein–protein interactions by modelling the attention between sets of gene ontology terms」为题,于 2022 年 4 月 15 日刊载在《Bioinformatics》。识别蛋白质-蛋白质相互作用是分子生物学中的一项重大挑战,因为它是科学家理解生物过程 (BP) 和细胞活动(如代谢、信号转导途径和免疫反应)的基础。高通量测序方法的进步,使科学家可以在基因组规模上发现 PPI。然而,传统实验方法费时费力,而且结果的假阳性率和阴性率都很高。酵母双杂交实验可以报告直接的物理相互作用,并生成二元相互作用组网络图。在最终数据集中发现的噪音主要来自该方法无法捕获依赖于中间蛋白质(蛋白质复合物和翻译后修饰)的蛋白质与表达水平之间的相互作用。另一方面,使用亲和纯化和质谱 (AP-MS) 实验,通过检测蛋白质复合物中出现的相互作用生成,可与前面提到的方法建立互补的数据集。然而,AP-MS 检测瞬态相互作用的能力有限。因此,研究人员开发了计算方法来推断计算机中的 PPI。已经有多项研究应用这类方法预测 PPI,例如蛋白质的一级结构、3D 蛋白质结构、基因表达谱和基因本体 (GO) 注释。GO 项目是一项协作类研究,旨在用跨多个数据库和物种的 BP 的有效描述来注释基因和基因产物。GO由本体图和注释数据库组成。该图结构为有向无环图(DAG),分为三个正交子本体,细胞成分(CC)、BP和分子功能(MF)。图中的节点表示 GO 术语,它们是对生物学概念的描述,边('is_a'、'part_of'、'regulates'、'has_part')表示 GO 术语之间的关系。注释数据库包含 GO 术语和它们注释的基因产物。GO 注释中的语义相似性被认为是 PPI 最强大的描述符之一。这背后的原理是相互作用的蛋白质对,例如蛋白质复合物在相同的细胞位置相互作用,并且功能模块在不同的时间参与相同的细胞过程或 MF。这两种类型的交互在 GO 注释方面密切相关。多年来,已经提出了多种关于 GO 的语义相似性度量,它们使用 GO 注释中的语义相似性来预测 PPI。然而,经典的语义相似性度量通常是手工制作的,无法完全捕捉 GO 术语的特殊性。此外,语义相似性度量很难进行比较,并且它们仅在某些数据集上表现良好。根据下游应用程序,不同的特征在定义相似性概念时,应该或多或少有些关联。另一方面,虽然机器学习方法可以以有监督的方式进行训练,但相似度被编码为一个简单的特征向量,来表示常见的 GO 术语。这种方式会忽略本体的结构,无法对具有共同术语但描述过于笼统的蛋白质进行正确评估。有些研究应用了自然语言处理领域的技术来提取 GO 术语的密集特征向量。图示:TransformerGO 框架的架构。(来源:论文)南安普顿大学的研究人员发现,以前使用余弦相似度或使用完全连接的神经网络比较特征向量的工作,未能捕捉到 GO 术语之间的深层语义相似度。受先前基于 GO 术语的工作和 NLP 当前进步的启发,他们提出了 TransformerGO,是一种利用深度学习的最新进展来使用从 GO 图中提取的网络信息来预测 PPI 的方法。图示:H.sapiens 数据集(字符串数据库)中出现的每个 GO 词条的频率以及注意力值。与语义相似度度量相比,该模型的一个明显优势是能够使用 GO 术语的广义特征向量,然后在训练阶段使用注意力机制对它们进行相应的加权。这克服了手动创建语义相似性度量来判断术语之间的每个关系应如何为最终目标做出贡献的限制。与当下的机器学习方法相比,TransformerGO 提高了性能,捕获了 GO 集之间的语义相似性。Onto2vec 和 Opa2vec 对 GO 术语的编码与 TransformerGO 类似,但交互的预测是通过简单的余弦相似度或浅层全连接神经网络建模的。虽然 protein2vec 使用 LSTM 对蛋白质表示进行建模,但输入被认为是一系列术语,并且交互仍然由全连接层预测。一个新趋势是允许这些方法考虑来自各种数据集的现代高通量技术。TransformerGO 将 GO 术语的输入特征向量作为输入,可以通过训练来解决其他生物学问题,例如预测蛋白质对之间的相互作用类型。图示:驻留在 GO 图的不同深度的 GO 术语的平均注意力,以及平均背景频率。(来源:论文)Transformer 是使用注意力来加速训练的神经网络,是最先进的 NLP 架构(例如 BERT)的主要组成部分。解释注意力是一个活跃且众所周知的研究领域,但在生物序列中的应用仍然滞后。该团队提出了注意力头的可视化,将先前的工作扩展到基于语义相似性的蛋白质相互作用预测领域。与经典的语义相似性度量不同,sourceattention 提供了有价值的见解来解释 GO 术语之间的相似性。研究人员发现 CC 术语是相互作用蛋白质的一个重要指标,并且在某些情况下,语义相似性会在不同的本体中被发现。

图示:前 30 个 GO 术语的注意力值在预测交互时不同方法的验证。(来源:论文)

研究人员认为 TransformerGO 在 PPI 预测任务上的表现,其语义相似性仍远未达到基因产物之间其他相似性度量的状态,例如基于序列的相似性度量。期望未来对基于注意力的模型的研究,能够对蛋白质与蛋白质的相互作用进行更全面的分析,在更精细水平上对语义相似性进行彻底的模型解释。开源链接:https://github.com/Ieremie/TransformerGO论文链接:https://academic.oup.com/bioinformatics/article-abstract/38/8/2269/6530277?redirectedFrom=fulltext&login=false

相关文章
|
10月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
1969 0
|
11月前
|
机器学习/深度学习 人工智能 数据挖掘
AI概率学预测足球大小球让球数据分析
在足球数据分析中,AI概率学预测主要用于大小球和让球盘口的分析。大小球预测通过历史数据、机器学习和实时数据动态调整进球数;让球分析则利用Elo评分等评估实力差距,结合盘口数据预测比赛结果。数据来源包括历史比赛、球队和球员信息及外部因素。模型选择涵盖回归、分类和时间序列模型,并通过交叉验证、误差分析进行优化。实际应用包括制定投注策略、风险管理及开发自动化系统。代码示例展示了使用随机森林回归模型预测进球数的过程。
|
存储 机器学习/深度学习 算法
如何准确的估计llm推理和微调的内存消耗
最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。
2508 0
|
Web App开发 SQL 存储
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32255 117
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4734 4
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6834 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4803 11
|
16天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5682 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手