生物医药领域-分子对接SOTA模型洞察

简介: 该文介绍了分子对接的作用过程、应用场景及分类,总结了现有软件的核心内容与评估指标,并分析了KarmaDock、DiffBindFR和RosettaVS三种最新模型的细节、性能和应用领域。研究指出,未来应关注模型长板特征,开发超大规模虚拟筛选平台以提升药物发现效率。

该洞察介绍了分子对接的作用过程、应用场景、分类,简要总结了现有分子对接软件的核心内容及评估指标。此外,调研了近两年发表的3种SOTA模型(KarmaDock、DiffBindFR、RosettaVS),对其具体细节、性能精度、应用领域等进行了分析说明,并总结了几点对未来工作的启示。

1、背景介绍

分子对接定义:受体和配体之间通过能量匹配、空间匹配和化学性质匹配而相互识别形成分子复合物,并预测复合物结构的一种计算技术。也即,将配体分子放置到受体大分子的活性位点中,观察小分子与受体结合构象及预测作用能的过程。其目的是从小分子数据库中发现合适的化合物作为受体大分子的配体。

•分子对接常用于研究药物和受体相互作用,一般过程包括确定受体的活性位点、定义活性口袋,根据受体活性位点与药物分子的性质和形状的互补性,调整受体活性位点柔性残基或药物的构象,计算对接时不同取向的药物与受体的相互作用能量来评估受体与配体的作用方式等。其他应用场景还包括:酶机理研究,先导化合物优化,先导分子鉴定/虚拟筛选等。

•从对接对象角度可将分子对接分为五类:大分子受体蛋白质与小分子配体间的对接,蛋白质与蛋白质间的对接,蛋白质与DNA分子间的对接,蛋白质与RNA分子间的对接,以及蛋白质与多肽间的对接。

•根据受体配体构象特征又可将分子对接分为三类:刚性对接,半柔性对接及柔性对接。刚性对接中受体和配体都看作是刚性的、不发生构象变化的。半柔性对接将受体看作是刚性的,而配体小分子在对接过程中通过平动、转动及可旋转二面角扭转等产生多种构象。柔性对接中则受体及配体均是柔性的。

2、现有软件性能评估:

•过去的20年已涌现出了大量的分子对接软件,比如Auto Dock、GOLD、DOCK、Flex X、Glide等,其中既有商业软件也有学术软件,使用占比如右图所示。 •采样算法与打分函数是对接软件最核心的部分。前者决定了对接软件的采样性能;后者用于近似预测两个分子相互作用后的结合亲和力,其对复合物结合亲合力排序的预测精度为打分性能,用预测的结合亲和力(打分值)与实验值之间的皮尔逊相关系(rp)与史皮尔曼等级相关系数(rs)来评价。 •打分最佳结合构象通常不是实际最好的结合构象,之间差距巨大,这主要是因为打分函数存在缺陷。因此,有必要考察一致率以评估打分最佳与实际最佳的一致性。一致率用SRtsp/SRbp来定义,其中SRtsp与SRbp分别是打分最佳与实际最佳结合构象的成功率。 •打分性能的评估也表明,同一软件对不同蛋白家族的打分性能差异很大,因此不同蛋白的对接研究可能需要使用不同的软件。评价结果还发现,没有一个软件可以在采样性能与打分性能两样优于其它软件,因此最好的虚拟筛选解决方案是组合使用几种不同的对接软件

3、SOTA模型分析

KarmaDock:针对超大规模虚拟筛选的基于深度学习的分子对接方法(Nat. Comput. Sci.  2023)


        目前,深度学习在保证对接速度和精度的平衡方面仍存在挑战。大多数模型将结合构象和结合强度的预测视为两个独立的任务,使得在预测蛋白配体结合时无法同时获取结合亲和力,这对于大规模虚拟筛选不够友好。KarmaDock利用深度学习技术,特别是几何深度学习,来预测蛋白质和配体间的结合姿势。该方法能够处理配体的灵活性,并考虑蛋白质口袋的复杂性以提高对接准确性。

KarmaDock的架构包括两个编码器(Graph Transformer (GT) 和 Geometric Vector Perceptrons (GVP))、一个混合密度网络(MDN)模块进行打分和一个EGNN模块进行对接。KarmaDock不仅要生成结合姿态,还要基于生成的结合姿态给出蛋白质和配体之间的结合强度打分,因而在对接能力和筛选能力方面均表现出强劲的性能。从精度上来看,KarmaDock的性能在三种数据集划分方法下均超过了传统的对接软件,至少提高了14.9%/22.3%的成功率;从速度的角度上看,KarmaDock在PDBbind测试集上较传统对接软件实现了至少163.06倍的加速。该方法还通过减少计算资源的需求,提高了对接过程的效率。

应用场景:药物设计、大规模虚拟筛选、生物分子研究等。

DiffBindFR:基于扩散模型的柔性分子对接方法(Chem. Sci.  2024)

      现有的柔性分子对接方法受限于计算复杂度,仅能考虑少量侧链构象变化。DiffBindFR 使用基于消息传递的 SE(3)-等变网络编码蛋白质口袋和配体分子之间全原子的复杂相互作用。整个模型将柔性对接定义为学习四个变量(配体旋转、平移、可旋转键扭转和口袋侧链扭转)在其切空间中的联合去噪过程的问题,可生成多个对接构象,利用confidence model挑选出排名第一的构象作为最终对接结果输出。

在PDBbind测试集上,DiffBindFR在分子对接成功率上超越了传统对接方法和深度学习方法,能够高精度预测蛋白配体结合口袋中残基的侧链构象,且该方法生成的口袋-配体复合物的全原子模型具有很好的物理合理性。此外,交叉对接是更能检验柔性对接方法应用潜力的任务,而该方法在交叉对接中也展现出了优异的性能(比如能够处理AlphaFold2预测的蛋白质结构中侧链构象阻挡配体分子进入正确结合位置的问题)。

应用场景:药物设计、虚拟筛选、结构基药物设计、交叉对接等。

RosettaVS:一种高精度基于结构的虚拟筛选方法(Nature Communications 2024)

      为了能够针对超大化合物库进行筛选,研究人员采用了两种策略。首先,开发了一种改进的对接协议 RosettaVS,它实现了两种高速配体对接模式:虚拟筛选快速版 (VSX) 专为快速初步筛选而设计,虚拟筛选高精度版 (VSH) 是一种更准确的方法,用于对初始筛选中的最佳匹配进行最终排序。基于此,研究人员还开发了一个开源AI加速虚拟筛选平台 (OpenVS) ,该平台使用主动学习技术在对接计算过程中同时训练目标特定的神经网络,以高效地分类和选择最有希望的化合物进行昂贵的对接计算。

 RosettaVS在多个基准测试集上表现出了优异的性能,包括CASF2016和DUD数据集。它在区分天然结合姿势和诱饵结构方面取得了领先的成绩,并且在预测配体结合亲和力方面也显示出了高准确性。利用OpenVS平台,研究人员成功从数十亿种化合物库中筛选出了具有个位数微摩尔结合亲和力的命中化合物,且筛选过程在不到七天内完成,显示了其高效的筛选能力。

应用场景:药物发现、先导化合物优化、蛋白质功能研究等。

4、启发或建议

  • 实际应用中,在一个分子对接模型中采样性能与打分性能往往不能兼顾,最好的解决方案是几种不同模型组合使用,因此我们在模型迁移选择上应该重点关注模型的长板特征而非综合性能
  • 在药物发现应用领域,除了分子对接模型的开发以外,超大规模虚拟筛选的开源、可扩展平台的开发也至关重要。OpenVS开创了这一新方向,充分彰显了高通量优势和巨大应用潜力,有望推动学界业界更广泛地应用和优化这一技术,从而为海量先导化合物库的高效筛选提供理想解决方案。

5、参考文献

[1] Physical Chemistry Chemical Physics, 2016, 18(18): 12964-12975.

[2] Nature Computational Science, 2023, 3(9): 789-804.

[3] Chemical Science, 2024, 15(21): 7926-7942.

[4] Nature Communications, 2024, 15(1): 7761.

相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
6天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
2525 111
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
13天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
9284 86
|
4天前
|
人工智能 自然语言处理 JavaScript
宜搭上新,DeepSeek 插件来了!
钉钉宜搭近日上线了DeepSeek插件,无需编写复杂代码,普通用户也能轻松调用强大的AI大模型能力。安装后,平台新增「AI生成」组件,支持创意内容生成、JS代码编译、工作汇报等场景,大幅提升工作效率。快来体验这一高效智能的办公方式吧!
1266 5
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171375 18
|
5天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
1167 7
阿里云PAI部署DeepSeek及调用
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150313 32
|
1天前
|
人工智能 自然语言处理 API
DeepSeek全尺寸模型上线阿里云百炼!
阿里云百炼平台近日上线了DeepSeek-V3、DeepSeek-R1及其蒸馏版本等六款全尺寸AI模型,参数量达671B,提供高达100万免费tokens。这些模型在数学、代码、自然语言推理等任务上表现出色,支持灵活调用和经济高效的解决方案,助力开发者和企业加速创新与数字化转型。示例代码展示了如何通过API使用DeepSeek-R1模型进行推理,用户可轻松获取思考过程和最终答案。
|
4天前
|
JavaScript 前端开发 API
低代码+阿里云部署版 DeepSeek,10 分钟速成编剧大师
阿里云部署版DeepSeek重磅发布,钉钉宜搭低代码平台已首发适配,推出官方连接器。用户可轻松调用DeepSeek R1、V3及蒸馏系列模型。通过宜搭低代码技术,结合DeepSeek大模型,仅需10分钟即可制作编剧大师应用。
561 19
|
5天前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。

热门文章

最新文章