Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法

简介: Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法

本文介绍苏黎世联邦理工学院、Sidney Kimmel癌症中心等机构的研究者合作发表于Advanced Science的工作:作者将基于配体的分子从头设计与用于靶点预测的机器学习模型相结合,以海洋天然产物Marinopyrrole A为设计模板,自动设计生成了全新的cyclooxygenase-1(COX-1)抑制剂,展示了以天然产物启发的、AI驱动的药物设计的美好前景。特别的,这种基于规则的化合物构建策略打破了高数据量要求的深度学习方法的限制。


image.png

image.png

简介


天然产物在药物发现中极具潜力,美国FDA批准的药物中有1/3以上是天然产物或天然产物启发的药物,但由于大多天然产物的生物活性未知、具有药理活性的天然产物稀缺以及合成路线复杂等原因阻碍了其工业化。


作者提出了一个高效的计算策略,结合了用于化学结构生成(DOGS)、排序(CATS)和靶点预测(SPiDER)的机器学习模型,用于靶点识别和可合成天然产物相似物的从头设计。这种综合方法将自动化的、基于规则的分子构建与机器学习和实验验证结合,加速了药物的DMTA(design-make-test-analyze)过程。


作者以海洋天然产物Marinopyrrole A(化合物1)作为自动生成新分子的设计模板,验证了所提方法。Marinopyrrole A具有抗菌特性和抗癌活性,其已知的最短合成路线有5个步骤,总产率16%,因此本文旨在通过计算获得与Marinopyrrole A共享疾病相关的大分子靶点的新型、更容易合成的药物分子。此外,作者还分析了设计模板的生物活性在多大程度上被转移到从头设计的分子中,保证新设计是功能性而非模板的结构模拟(即“新结构,同功能”)。

image.png

图1. 受天然产品启发的分子骨架迁越


COX-1抑制剂的DMTA过程


(1)设计(design)


首先,使用DOGS(design of genuine structures)软件从200个随机选择的起始片段中从头构建新分子(de novo design)。对于虚拟产物的选择,DOGS在不超过3个线性合成步骤的分子中进行广度优先搜索。在分子构建过程中,生成分子和Marinopyrrole A的分子图相似性作为适应度函数,该相似性已被证明能在设计模板和生成分子间实现骨架迁越,识别结构不同但功能相关的化合物对。


DOGS算法仅由模板和新分子之间的分子相似度来指导,不依赖活性预测构建和选择分子,与无规则的生成式机器学习模型相比,该算法以前向合成的方式生成分子,因此能够为设计提出合成路线。最终,DOGS生成了802个从头设计,包含334个独立分子骨架。


接着,将上述分子根据与Marinopyrrole A的拓扑药效团相似性(CATS距离指标,值越低越相似)进行排序,排名前100的CATS距离均<1.8,包含38个独特骨架,最后在包含最常见的2,4,5-triphenyl骨架(图1)的设计中选出了化合物2(CATS距离=1.46)和化合物3(CATS距离=1.70)。对于这两种化合物,DOGS算法给出的合成路线十分相似(图2)。

image.png

图2. 从头设计化合物2和3的合成路线。(a)算法建议的合成路线;(b)实际化学合成。


(2)实验合成、生物活性测试以及分子机制分析


实验根据DOGS建议的合成策略(包括合成步骤以及反应条件等)合成了化合物2以及衍生物2a和2b(图1b),还得到了中间产物化合物4和化合物3。


作者使用了SPiDER靶点预测软件来确定Marinopyrrole A和其仿制化合物的大分子靶点。SPiDER通过与类似化合物和已知生物活性的集合相比较,推断查询分子的潜在生物靶点——通过两个级联的机器学习模型(自组织映射)实现,分别考虑了物理化学特性和分子药理特征方面的分子相似性。本实验中,Marinopyrrole A的靶点预测量最少(n=8),化合物3的最多(n=43)。最后,Marinopyrrole A的8个预测靶点中的7个(前列腺素受体、大麻素受体等)被建议用于所有的新化合物。


初筛中,作者对这些化合物进行了测试,以确定它们对选定靶点的活性,结果表明它们有明显的COX-1抑制活性。由于此前COX-1是否是Marinopyrrole A的靶点未知,故使用无细胞试验进一步验证,结果表示Marinopyrrole A在两位数的微摩尔范围内抑制COX-1,而化合物2、2a和4也表现出强大的COX-1抑制作用。如图3,从头设计的模拟化合物2(compound 2)可优先抑制人体血小板和单核细胞中COX-1衍生产物的合成,是强效COX-1抑制剂。


最后,作为DMTA的最后一环,作者分析了COX-1抑制剂的分子机制,包括结合模式等,对开发新COX抑制剂具有指导意义。

image.png

图3. 载体对照组(DMSO)、化合物2处理(“w/o LPS”)、先用LPS激活以诱导COX-2表达(with LPS)


总结讨论


本研究中,原配体的预测靶点量(n=8)远少于从头设计生成的新分子,表明合成衍生物有多种生物活性和更大的靶点杂交性,且作者证实了计算生成的分子至少继承了3个靶点,表明基于配体相似性进行分子从头设计的适用性,也验证了CATS距离用于天然产物化合物排序的有效性。此外,实验中Marinopyrrole A的化学结构是合成过程唯一的参考信息,说明本文方法在低数据量情况下将十分有用,其以既定的化学转化为基础,可在不需要训练数据的情况下应用。


最后,作者表示本文使用的DOGS、CATS和SPiDER等模块中每一个都可用其他解决方案替代,例如在无法使用前向合成方式时使用生成式LSTM替代DOGS进行分子设计、使用强化学习或迁移学习组合分子构建和生物活性预测的软件模块。部分可预测性是合理药物发现的基本挑战,而利用machine intelligence从天然产品中学习有望为其提供前进道路。


目录
相关文章
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
204 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的奥秘
在人工智能的璀璨星空中,深度学习犹如一颗最亮的星,它以其强大的数据处理能力,改变了我们对世界的认知方式。本文将深入浅出地介绍深度学习的核心概念、工作原理及其在不同领域的应用实例,让读者能够理解并欣赏到深度学习技术背后的奇妙和强大之处。
55 3
|
5月前
|
机器学习/深度学习 缓存 数据处理
《零基础实践深度学习》2.3.3 校验数据有效性 基于飞桨Dataset和DataLoader API完成数据处理
这篇文章详细介绍了在深度学习任务中进行数据处理的步骤,包括数据校验、封装数据读取与处理函数、使用飞桨Dataset和DataLoader API完成数据加载,以及数据增强/增广的方法和实践,旨在确保数据的有效性和提高模型训练效果。
|
5月前
|
机器学习/深度学习 传感器 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的秘密
在这个数字信息爆炸的时代,深度学习技术如同一把钥匙,揭开了数据隐藏的层层秘密。本文将深入浅出地探讨深度学习的核心概念、关键技术和实际应用,带领读者领略这一领域的奥秘与魅力。通过生动的比喻和直观的解释,我们将一起走进神经网络的世界,看看这些由数据驱动的“大脑”是如何学习和成长的。无论你是科技爱好者还是行业新手,这篇文章都将为你打开一扇通往未来的大门。
|
4月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护
103 1
|
4月前
|
机器学习/深度学习 数据采集 计算机视觉
深度学习之缺失数据的图像修复
基于深度学习的缺失数据图像修复是一种通过深度学习技术填补图像中缺失或损坏部分的过程。这种技术在图像处理领域具有重要意义,能够改善图像的视觉质量,并在许多实际应用中发挥作用,如图像恢复、视频编辑和图像生成等。
88 4
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与神经网络:探索复杂数据的表示
【9月更文挑战第26天】深度学习作为人工智能领域的明珠,通过神经网络自动从大数据中提取高级特征,实现分类、回归等任务。本文介绍深度学习的基础、张量表示、非线性变换、反向传播及梯度下降算法,并探讨其在计算机视觉、自然语言处理等领域的应用与挑战。未来,深度学习将更加智能化,揭示数据背后的奥秘。
|
3月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
109 0
|
5月前
|
机器学习/深度学习 自然语言处理 数据处理
深度学习的数据增强
基于深度学习的数据增强技术旨在通过生成或变换现有数据,来提高模型的泛化能力和鲁棒性。数据增强在图像、文本、语音等各种类型的数据处理中都起着至关重要的作用。
62 1
|
5月前
|
机器学习/深度学习 自然语言处理 数据处理