大规模的化学语言 transformer 模型捕捉分子结构和性质

简介: 大规模的化学语言 transformer 模型捕捉分子结构和性质

1

编辑 | 绿萝基于机器学习的模型可以实现准确、快速的分子特性预测,这对药物发现和材料设计很有意义。各种有监督的机器学习模型已经证明了有前途的性能,但是广阔的化学空间和有限的属性标签使监督学习具有挑战性。最近,在大型无标签语料库上预训练的无监督基于 transformer 的语言模型在许多下游自然语言处理任务中产生了最先进的结果。受此启发,来自美国 IBM 研究院的研究人员提出了通过训练高效的 transformer 编码器模型 MOLFORMER 获得的分子嵌入,该模型使用旋转位置嵌入。该模型对来自 PubChem 和 ZINC 数据集的 11 亿个未标记分子的 SMILES 序列采用线性注意机制,并结合高度分布式训练。研究表明,在来自十个基准数据集的几个下游任务上,学习到的分子表示优于现有基线,包括监督和自我监督的图神经网络和语言模型。进一步的分析,特别是通过注意力的镜头,表明经过化学 SMILES 训练的 MOLFORMER 确实学习了分子内原子之间的空间关系。这些结果提供了令人鼓舞的证据,表明大规模分子语言模型可以捕获足够的化学和结构信息来预测各种不同的分子特性,包括量子化学特性。该研究以「Large-scale chemical language representations capture molecular structure and properties」为题,于 2022 年 12 月 21 日发布在《Nature Machine Intelligence》上。



论文链接:https://www.nature.com/articles/s42256-022-00580-7机器学习 (ML) 已成为一种有吸引力的、计算效率高的预测分子特性的方法,对药物发现和材料工程具有重要意义。分子的 ML 模型可以直接在预定义的化学描述符上进行训练。然而,最近的 ML 模型侧重于从编码连接信息的自然图或分子结构的线注释中自动学习特征,例如流行的 SMILES 表示。SMILES 学习已被广泛用于分子特性预测。然而,SMILES 语法复杂且有限制;适当字符集上的大多数序列不属于明确定义的分子。用于分子特性预测的 GNN 和语言模型的监督训练面临的一个挑战是标记数据的稀缺性。分子的标签注释通常很昂贵,而且由需要注释的似是而非的化学物质组成的空间的大小是天文数字(10^60 到 10^100),这一事实使这个问题更加复杂。这种情况产生了对分子表示学习的需求,这种学习可以推广到非/自我监督环境中的各种属性预测任务。基于大型 transformer 基础模型的成功,使用学习任务不可知语言表示的范例,通过对大型未标记语料库进行预训练并随后将其用于对感兴趣的下游任务进行微调,已扩展到其他领域。用于预测分子特性的预训练语言模型和 GNN 最近才开始出现。然而,在数十亿个分子的大型语料库上训练的预训练语言模型在多大程度上能够捕获各种下游任务中的分子-属性关系仍未得到探索。在此,研究人员提出了称为 MOLFORMER(分子语言 transformer)的分子 SMILES transformer 模型。将性能最佳的 MOLFORMER 变体命名为 MOLFORMER-XL。MOLFORMER-XL 是使用在 11 亿个分子的大型语料库上训练的有效线性注意机制获得的。结果表明,分子 SMILES 的预训练 transformer 编码器在预测各种分子特性(包括量子力学特性)方面与现有的监督或无监督语言模型和 GNN 基线相比具有竞争力。图 1:MOLFORMER 管道概览。(来源:论文)

主要贡献如下:

  • 研究人员在超过十亿个分子上训练了一个大规模高效的分子语言模型 transformer (MOLFORMER),硬件资源相对有限(最多 16 个 V100 图形处理单元 (GPU))。可扩展性和加速归功于高效的线性时间注意力、批处理的自适应分桶( bucketing)以及 PyTorch Lightning 和 NCCL 中提供的开源并行化。通过结合分桶和线性注意力,能够实现每个 GPU 1,600 个分子的批量大小。使用 16 个 GPU,需要 208 小时才能完成 MOLFORMER-XL 的四个预训练阶段。要在没有分桶和线性注意力的情况下在相同的时间内完成训练,将限制在每个 GPU 少于 50 个分子,并且需要超过 1,000 个 GPU 来完成该任务。
  • 探讨了表示分子 SMILES 时绝对位置嵌入和相对位置嵌入之间的差异。还为最近提出的相对位置 RoFormer 提供了一种新的、高效且准确的线性注意力近似。
  • 对来自十个基准数据集的几个分类和回归任务进行了广泛的实验和消融研究,涵盖了来自 MoleculeNet 的小分子化学品的量子力学、物理、生物物理学和生理学特性预测。
  • 结果提供了令人鼓舞的证据,表明 MOLFORMER 表示可以准确地捕获足够的化学和结构信息来预测各种化学性质。此外,MOLFORMER 的性能优于或相当于最先进的 GNN,这些 GNN 从精确的图形拓扑信息和其他信息(例如,键距离)中学习。
  • 提供了进一步的分析,以证明 MOLFORMER 可以仅从 SMILES 注释中捕获子结构以及分子内的空间原子间距离。

本研究探讨了预训练化学语言模型在预测从量子化学到生理学的广泛下游分子特性方面的代表性能力。特别是,单独从 SMILES 字符串预测量子化学特性并非易事,因为这些特性在很大程度上取决于准确的三维 (3D) 分子几何信息,这些信息被认为是特权信息,通常不可用具体而言,MOLFORMER 在各种分子回归和分类基准上优于现有的基于图形的基线。这项工作验证了大规模自监督预训练分子语言模型在预测从量子化学到生理学的整个范围内的分子特性方面的能力。此外,通过分析学习到的注意力,表明在 SMILES 序列上训练的 MOLFORMER 确实知道分子内的原子间关系,甚至超出了二维拓扑。

表 1:微调的 MoLFormer 与现有监督和预训练/自监督基线在多个分类基准上的比较。(来源:论文)

最后,在大规模学习端,展示了 MOLFORMER 对计算资源的高效和环保使用,将执行训练所需的 GPU 数量减少了 60 倍(1,000 对 16)。MOLFORMER 具有在不同靶标上更快地进行分子计算机筛选的直接潜力,这对材料设计和药物发现应用具有积极的社会影响。然而,应该注意的是,在湿实验室中未经适当的实验和科学验证而滥用此类技术可能会产生有害影响。此外,目前的工作需要进一步探索 MOLFORMER 在其直接从化学语言中学习结构分子信息的能力的背景下的表征能力,并且可以扩展到本工作中研究的有机小分子之外。未来的工作还将致力于通过采用更大的模型和更多的训练数据、使用改进的和/或特定领域的自监督任务以及使用其他基于字符串的表示(例如 SELFIES)来改进 MOLFORMER。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
安全
Baidu千帆大模型赋能——儿童读物——童话故事38
Baidu千帆大模型赋能——儿童读物——童话故事38
154 0
|
编译器
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
10479 0
|
7月前
|
SQL 前端开发 Java
JavaWeb 学习日记案例详解及 javaweb 完整项目案例实战指南
本文介绍了一个基于Spring Boot的JavaWeb企业员工管理系统完整案例,涵盖部门管理、员工管理、登录、异常处理、事务管理及AOP等核心功能实现,结合CSDN相关技术文章,提供详细技术方案与应用实例,适合JavaWeb开发者学习与参考。
433 0
|
11月前
|
SQL 关系型数据库 网络安全
Navicat Premium 17 最新版下载与配置:5分钟完成企业级数据库工具部署
Navicat Premium 17 是一款支持多种主流数据库(如 MySQL、Oracle、PostgreSQL 等)的多数据库管理工具,提供可视化数据建模、SQL 编辑和数据同步等功能。试用版提供 14 天全功能体验,商业版支持跨平台使用。安装环境要求 Windows 10/11 或 macOS 12.0+,最低配置为 4GB 内存。下载并解压安装包后,按步骤启动安装程序、接受许可协议、自定义安装路径并完成安装。首次运行时需激活许可证并配置数据库连接。常见问题包括无法写入注册表、试用期续费及连接数据库权限问题。高级功能涵盖 SSH 通道加速、自动化任务调度和性能调优建议。
3829 19
|
弹性计算 运维 监控
两招玩转阿里云系统事件监控
两招玩转阿里云系统事件监控,教你如何快速使用云监控监控阿里云重要系统事件。
865 221
|
设计模式 开发框架 Java
分清 PO、VO、DAO、BO、DTO、POJO 含义
分清 PO、VO、DAO、BO、DTO、POJO 含义
1301 1
|
机器学习/深度学习 自然语言处理 PyTorch
Transformers入门指南:从零开始理解Transformer模型
【10月更文挑战第29天】作为一名机器学习爱好者,我深知在自然语言处理(NLP)领域,Transformer模型的重要性。自从2017年Google的研究团队提出Transformer以来,它迅速成为NLP领域的主流模型,广泛应用于机器翻译、文本生成、情感分析等多个任务。本文旨在为初学者提供一个全面的Transformers入门指南,介绍Transformer模型的基本概念、结构组成及其相对于传统RNN和CNN模型的优势。
13263 1
|
开发工具 git iOS开发
服务器配置Huggingface并git clone模型和文件
该博客提供了在服务器上配置Huggingface、安装必要的工具(如git-lfs和huggingface_hub库)、登录Huggingface以及使用git clone命令克隆模型和文件的详细步骤。
2409 1
|
机器学习/深度学习 传感器 人工智能
【博士每天一篇论文-综述】Brain Inspired Computing : A Systematic Survey and Future Trends
本文提供了对脑启发计算(BIC)领域的系统性综述,深入探讨了BIC的理论模型、硬件架构、软件工具、基准数据集,并分析了该领域在人工智能中的重要性、最新进展、主要挑战和未来发展趋势。
553 2
【博士每天一篇论文-综述】Brain Inspired Computing : A Systematic Survey and Future Trends
|
边缘计算 运维 安全
服务化架构 (SBA) 在 5G 核心网中的关键作用
服务化架构 (SBA) 在 5G 核心网中的关键作用
1036 1

热门文章

最新文章