GPU 计算和深度学习在药物发现中的转型作用

简介: GPU 计算和深度学习在药物发现中的转型作用

深度学习(DL)几乎颠覆了所有研究领域,包括药物发现。这场革命很大程度上归功于高度可并行化的图形处理单元(GPU)的空前进步和支持 GPU 的算法的发展。近日,来自不列颠哥伦比亚大学、北卡罗来纳大学教堂山分校和英伟达的研究人员合作发表题为《The transformational role of GPU computing and deep learning in drug discovery》(GPU 计算和深度学习在药物发现中的转型作用)的综述文章。在综述中,研究人员全面概述了 GPU 算法的历史趋势和最新进展,并讨论了它们对发现新药和药物靶点的直接影响。还介绍了最先进的深度学习架构,这些架构已在早期药物发现和随后的先导优化阶段得到实际应用,包括加速分子对接、评估脱靶效应和药理性质的预测。最后,讨论了 GPU 加速和深度学习模型对药物发现领域全球民主化的影响,这可能导致对不断扩大的化学领域的有效探索,以加速新药的发现。

图 1:计算机辅助药物发现(CADD)工作流程。(GPU 加速器在药物发现和开发过程的每个步骤中都有应用)

用于分子模拟的 GPU 计算和深度学习

GPU 加速来自海量数据并行性,这源于对数据的许多元素执行的类似独立操作。在分子模拟中,数据并行性可以应用于原子势能的独立计算。类似地,DL 模型训练涉及前向和后向传递,通常表示为易于并行化的矩阵变换(图 2)。

图 2:DL 架构在单 GPU 和多 GPU 环境中的并行化。

加速 GPU 上的分子动力学模拟与基于中央处理器 (CPU) 的算法相比,过去十年中以 GPU 为中心的分子动力学代码的发展导致模拟的计算成本降低了数百倍。GPU 不仅非常适合加速分子动力学模拟,而且还可以使用空间域分解很好地适应系统规模。因此,分子动力学模拟扩展到更广泛的生物分子现象,接近病毒和细胞水平,更接近实验时间尺度。最近的方法和算法进步使分子动力学模拟高达 2 × 10^9 个原子的分子组装成为可能,总模拟时间为微秒甚至毫秒。

图 3:可以用分子动力学模拟的生物系统复杂性的时间表。

自由能模拟代表了另一个受益于 GPU 开发进展的领域。诸如相对结合自由能计算、热力学积分和自由能扰动等方法现在可以计算大量蛋白质-配体复合物的可靠结合亲和力。量子力学和 GPUTeraChem 是第一个专门为 GPU 编写的量子化学代码。混合精度算术允许非常有效地计算库仑和交换矩阵。TeraChem 的最新算法允许使用密度泛函理论 (DFT) 模拟整个蛋白质。未来的百亿亿级超级计算机将在异构 CPU 和 GPU 环境中提供高水平的并行性。这种扩展需要开发新的混合算法,并且本质上是对科学代码的完全重写。这些新的发展现在正在作为 NWChemEx 软件包的一部分实施。NWChemEx 将为系统提供执行量子力学和分子力学模拟的可能性,这些系统比那些可以通过理论方法的规范公式处理的系统大几个数量级。GPU 加速蛋白质结构测定冷冻电镜的高通量和自动化变得越来越重要,作为用于蛋白质结构确定的最先进的实验技术,作为最先进的实验技术用于蛋白质结构的确定,用于基于结构的药物设计。已经开发了基于 DL 的方法,例如 DEFMap 和 DeepPicker,以加速冷冻电镜图像的处理。除了通过冷冻电镜加速蛋白质结构的实验表征之外,DeepMind 最近在蛋白质结构预测的关键评估 (CASP) 挑战中使用 AlphaFold-2 方法取得的突破性成功,这暗示了 DL 算法对蛋白质的未来影响结构表征和可药用蛋白质组的扩展。

CADD 中 DL 的出现

深度学习的发展,特别是在计算机视觉和语言处理方面的进步,重新唤起了 CADD 研究人员对神经网络的兴趣。支持 GPU 的 DL 架构的出现,以及化学基因组学数据的激增,导致了有意义的支持 CADD 的临床候选药物发现。此外,人工智能 (AI) 驱动的公司(例如 BenevolentAI、Insilico Medicine 和 Exscientia 等)在增强药物发现方面的成功。最近的成功案例表明,进一步推广和应用由 GPU 计算支持的 AI 驱动方法可以极大地加速新药和改进药物的发现。CADD 的 DL 架构从在现有或合成可行的化学库的虚拟筛选中找到应用的判别神经网络,到最近启发其在从头药物设计中使用的 DL 生成模型的成功,图 4 描绘了常用的最先进的 DL 架构的一般方案。表 1 列举了它们在 CADD 中的采用情况。图 4:几种流行的神经网络的架构。表 1:最先进的 DL 类别及其在药物发现中的应用。使用 GPU 和 DL 扩大虚拟筛选基于结构的虚拟筛选和基于配体的虚拟筛选旨在根据化合物与靶点的计算结合亲和力对化合物进行排序,并将小分子之间的结构相似性分别推断为功能等效性。随着可购买配体库的指数级增长,已经包含数百亿个可合成分子,人们越来越关注通过对接计算的并行化或基于 DL 的加速来扩大传统虚拟筛选操作的规模。最近开发了许多基于结构的虚拟筛选方法,以有效筛选数十亿条目的化学文库。然而,计算成本仍然很高,对于无法访问精英超级计算集群的药物发现组织来说可能是令人望而却步的。另一方面,最近出现了基于结构的替代虚拟筛选平台,利用 DL 预测和分子对接来促进从计算资源有限的大型库中选择活性化合物。与蛮力方法相比,这些基于 DL 的方法可能在使学术研究小组和中小型工业等能够访问化学空间方面发挥重要作用。

支持 GPU 的 DL 促进开放科学和药物发现的民主化

DL 与 CADD 的整合极大地促进了药物发现和开放科学工作的全球民主化。对 DL 模型的大型数据集日益增长的需求自然会鼓励数据共享实践,并要求更广泛的开放数据政策。此外,云原生计算和面向微服务架构中的 GPU 加速可以使 CADD 方法免费且广泛可用,有助于标准化计算模块和工具、架构、平台和用户界面。尽管这些新的支持 DL 的建模机会令人兴奋,但 CADD 科学家需要对 DL 技术的预期影响保持谨慎。开放科学工作受益于最近的端到端 DL 模型,这些模型可以使用 GPU 在药物发现的所有阶段实施。由于法律的复杂性,机构之间共享专有数据继续成为简化药物发现研究的瓶颈。联合学习允许参与机构对其各自的非共享数据进行本地化训练。然后将经过训练的本地模型聚合在中央服务器中,以实现更广泛的可访问性。因此,联邦学习通过在一定程度上缓解数据交换挑战来支持民主化,尽管有效的模型聚合仍然是一个活跃的研究领域。

结论与展望

现代药物发现受益于最近 DL 模型和 GPU 并行计算的爆炸式增长。在硬件进步的推动下,DL 在从虚拟筛选和 QSAR 分析到生成药物设计的药物发现问题上表现卓越。预计,功能日益强大的 GPU 架构的日益普及,以及高级 DL 策略和 GPU 加速算法的开发,将有助于使全球更广泛的科学界能够负担得起和使用药物发现。DL 算法的另一个关键驱动因素是「大数据」的可用性。随着基因测序和高通量筛选越来越容易,数据驱动的计算化学研究人员现在可以轻松获得大量原始数据。然而,对监督学习方法至关重要的高质量标记数据的管理成本仍然很高。因此,深入探索集中、处理和标记良好的数据存储库的假定优势仍然是一个开放的研究领域。总体而言,药物发现和机器学习领域的研究人员有效地合作识别 CADD 子问题和相应的 DL 工具。我们相信,未来几年这些应用程序将得到微调和成熟,这种合作将进一步发展到生命科学的其他未开发领域。因此,联邦学习和协作机器学习正获得越来越多的关注,我们相信它们将成为民主化药物发现革命的先驱。论文链接:https://www.nature.com/articles/s42256-022-00463-x

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
JSON 小程序 数据安全/隐私保护
小程序动态调试-解密加密数据与签名校验
本文主要讲解微信小程序加密、验签的情况下如何进行动态调试已获取签名以及加密信息
|
前端开发 JavaScript 搜索推荐
Marp 入门与教程:让你一分钟爱上代码写PPT的乐趣
Marp 是一个基于 Markdown 的开源幻灯片制作工具,可将 Markdown 文档轻松转换为精美幻灯片。支持 VS Code 插件实时预览、命令行工具批量处理、自定义主题等,适用于技术分享、工作汇报和教学等多种场景。相比 LaTeX Beamer,Marp 学习成本低,跨平台支持好,设计现代美观。
|
机器学习/深度学习 编解码 API
《黑神话:悟空》中的光线追踪与DLSS技术解析
【8月更文第26天】《黑神话:悟空》是一款备受期待的国产动作冒险游戏,它采用了先进的图形技术,包括实时光线追踪和NVIDIA DLSS(Deep Learning Super Sampling),以提供令人震撼的视觉效果和流畅的游戏体验。本文将深入探讨这两种技术在游戏中的应用及其背后的原理。
480 1
|
算法 Java 机器人
Java在嵌入式领域的应用
【5月更文挑战第7天】Java广泛应用于消费产品(如智能电视、机顶盒、数码相机)、工业控制(PLC、DCS、FCS)、通信(交换机、路由器、基站)、智能仪器、机器人、计算机外部设备、军事电子及太空科学,涵盖从家用到高科技领域的嵌入式系统开发。
201 4
【word】论文、报告:①插入图表题注,交叉引用②快速插入图表目录③删改后一键更新
【word】论文、报告:①插入图表题注,交叉引用②快速插入图表目录③删改后一键更新
2164 0
|
存储 测试技术
探索性能巅峰:io_uring用户态接口的神奇之处
这篇文章将带你深入探索io_uring用户态接口的神奇之处,它是一项引人注目的技术,能够显著提升IO操作的性能。我们将介绍io_uring的工作原理,并解释它为什么在性能方面与传统接口相比具有明显优势。你将了解到io_uring的异步特性是如何实现的,以及它如何减少了对内核的系统调用次数。我们还将探讨io_uring在实际应用中的潜力和使用场景,以及如何利用它来优化你的应用程序。无论你是开发人员还是系统管理员,本文都将帮助你了解并掌握io_uring用户态接口的神奇之处,助你实现卓越性能的应用程序。
323 0
|
JSON JavaScript 前端开发
新能力 | 支付宝小程序订单中心能力正式上线能力中心
介绍小程序订单中心的作用、入口和准入条件。
3405 12
新能力 | 支付宝小程序订单中心能力正式上线能力中心
|
供应链 新零售
案例酷 | 太平鸟:中国服饰行业新零售转型路径的典型样本
在消费增速下滑的大环境下,转型焦虑几乎已经弥漫了整个服饰行业,国内大型服饰品牌商几乎都在积极尝试转型,从线下到线上,从国内到国外,从品牌自创到收购,从这几年的情况来看,大部分转型并不太成功。国内服饰行业的转型之惑也折射了服饰行业的生存状况。但在其中也有少数品牌商有亮眼表现。从1996年至今,太平鸟已经走过23年。从街边店铺、单个女装品牌,到拥有线下近4600家门店,7个品牌,年营业额超过77亿元。太平鸟在短时间内实现了快速增长。从太平鸟的发展可以感受到国内服饰行业的发展趋势和数字化转型路径。
2723 0
|
安全 专有云 网络安全
坚守安全第一准则!阿里云接连通过等保2.0测评、ISO国际认证
数字时代,数据的安全对于互联网用户来说显得尤为重要。阿里云更是一直坚持“安全第一准则”,致力于为客户的数据安全搭建更健全机制。
5612 0