科学家使用机器学习获得前所未有的小分子视图

简介: 科学家使用机器学习获得前所未有的小分子视图


编辑 | 绿萝

数以千计的不同小分子(称为代谢物)在整个人体中传输能量和传递细胞信息。由于它们非常小,因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。

尽管在过去十年中预测方法和工具取得了快速进展,但生物样本中小分子的结构注释仍然是非靶向代谢组学的关键瓶颈。液相色谱-串联质谱法(LC-MS)是使用最广泛的分析平台之一,可以检测样品中的数千个分子,即使使用一流的方法,其中绝大多数仍未被识别。

近日,来自阿尔托大学和卢森堡大学的研究人员开发了一种机器学习框架:LC-MS^2Struct,用于对 LC-MS 测量产生的小分子数据进行结构注释。经过数十个实验室的数据训练,成为识别小分子最准确的工具之一。

LC-MS^2Struct 获得了比早期方法显著更高的注释精度,并将最先进的 MS^2 评分器的注释精度提高了高达 106%。使用立体化学感知分子指纹可提高预测性能,这突出了现有方法的局限性,并对未来的计算 LC-MS 发展具有重要意义。

该研究以「Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data」为题,于 2022 年 12 月 19 日发布在《Nature Machine Intelligence》上。

论文链接:https://www.nature.com/articles/s42256-022-00577-2

生物样品中小分子的结构注释是生物医学、生物技术、药物发现和环境科学等各个研究领域的关键瓶颈。非靶向代谢组学研究中的样本通常包含数千种不同的分子,其中绝大多数仍未被识别。LC-MS 是使用最广泛的分析平台之一,因为它可以进行高通量筛选、高度灵敏并且适用于范围广泛的分子。

对于每个离子,记录的碎片及其强度构成 MS^2 谱图,其中包含有关分子中子结构的信息,并作为注释工作的基础。在典型的非靶向 LC-MS^2 工作流程中,数千个 MS 特征(MS^1、MS^2、RT)来自单个样本。结构注释的目标是将每个特征与候选分子结构相关联,以供进一步的下游解释。

近年来,已经开发了许多预测 MS^2 质谱图结构注释的强大方法。有趣的是,RT 信息在基于 MS^2 的结构注释自动化方法中仍未得到充分利用。自动注释管道中另一个有点被忽视的方面是立体化学的处理,即分子的不同三维 (3D) 变体。

在此,研究人员着手为联合使用 MS^2 和 retention order (RO) 结合立体化学感知分子特征来提供 LC-MS^2 数据结构注释的新视角。提出了一种名为 LC-MS^2Struct 的新型机器学习框架,它学习如何以最佳方式组合 MS^2 和 RO 信息,以准确注释一系列 MS 特征。

LC-MS^2Struct 依赖于结构化支持向量机 (SSVM) 和最大间隔马尔可夫网络(max-margin Markov network)框架。框架不需要单独学习的 RO 预测模型。相反,它优化了 SSVM 参数,使得正确和任何其他注释序列之间的分数差最大化。通过这种方式,LC-MS^2Struct 学习如何以最佳方式使用来自一组 LC-MS^2 实验的 RO 信息。

根据 MassBank 提供的所有可用反相 LC 数据对LC-MS^2Struct 进行了训练和评估,包括来自 18 种不同 LC 配置的总共 4,327 个分子,因此在模型评估中达到了高水平的测量多样性。

图示:LC-MS^2Struct 工作流程概览。(来源:论文)

LC-MS^2Struct 与其他三种方法(RT 过滤、logP 预测和 RO 预测)进行了比较。LC-MS^2Struct 可以与任何 MS^2 评分器结合使用,并使用 CFM-ID、MetFrag 和 SIRIUS 工具进行了演示。

图示:组合 MS^2 和 RT 信息的不同方法。(来源:论文)

实验表明,LC-MS^2Struct 注释小分子的准确性远远优于更传统的 RT 过滤和基于 logP 的方法,也明显优于以前依赖 RO 的方法。所有三个研究的 MS^2 评分器都可以通过LC-MS^2Struct 进行改进,包括同类最佳的 SIRIUS,由于其已经很高的基线准确性,通常很难对其进行改进。对于 CFM-ID 和 MetFrag,LC-MS^2Struct 比 only-MS^2 的 top-1 准确度提高了 4.7 和 7.3% 单位,分别对应于 80.8% 和 106% 的性能增益。

研究结果显示了立体化学感知分子特征对于 LC-MS^2 数据结构注释的优越性。值得注意的是,这不仅适用于立体异构体的注释,也适用于仅通过其二维结构区分的候选物。

接下来,研究了LC-MS^2Struct 是否可以比单独使用 MS^2 更准确地注释立体异构体,考虑到双键方向不同的立体异构体之间的差异(例如,顺反异构或 E-Z 异构),这可能会导致其 LC 行为的差异。候选分子使用两种不同的分子指纹表示:一种包括立体化学信息 (3D);和一个省略它的 (2D)(方法)。这使我们能够评估立体化学感知特征对于结构注释的重要性。

图示:使用LC-MS^2Struct 识别立体异构体。(来源:论文)

在查看LC-MS^2Struct (3D) 的单个 MS^2 评分器的 top-1 性能时,观察到 CFM-ID、MetFrag 和 SIRIUS 分别提高了 2.6、3.8 和 3.2 个百分比单位。这分别转化为 87.3%、95.9% 和 44.3% 的性能提升。

一般来说,LC-MS^2Struct 提高了所有三个 MS^2 评分者的排名。然而,当使用立体化学感知 (3D) 候选特征时,改进明显更大。有趣的是,在 ALLDATA 设置中可以观察到类似的行为,尽管绝对性能改进较小。该实验表明LC-MS^2Struct 可以使用 RO 信息来改进立体异构体的注释。

「我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,」阿尔托大学的博士生 Eric Bach 解释道。「这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。」

卢森堡大学卢森堡系统生物医学中心 (LCSB) 副教授 Emma Schymanski 说:「使用立体化学提高了鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。这种方法也可以用来帮助识别和追踪环境中的微污染物,或表征植物细胞中的新代谢物。」

参考内容:https://phys.org/news/2022-12-scientists-machine-unprecedented-view-small.html


相关文章
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 数据采集 人工智能
【AI for Science】量子化学:分子属性预测-第1次打卡-机器学习baseline
【AI for Science】量子化学:分子属性预测-第1次打卡-机器学习baseline
|
机器学习/深度学习 数据采集 人工智能
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
434 1
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
535 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 联邦图机器学习综述;基于知识图谱和分子图的药物筛选模型(2)
7 Papers & Radios | 联邦图机器学习综述;基于知识图谱和分子图的药物筛选模型
262 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 联邦图机器学习综述;基于知识图谱和分子图的药物筛选模型(1)
7 Papers & Radios | 联邦图机器学习综述;基于知识图谱和分子图的药物筛选模型
398 0
|
机器学习/深度学习 数据可视化 算法
机器学习加速药物发现,基于 GNN 的分子表征对比学习
机器学习加速药物发现,基于 GNN 的分子表征对比学习
298 0
|
机器学习/深度学习 传感器 并行计算
基于量子化学计算和机器学习,从头开始创建肉眼可检测的荧光分子
基于量子化学计算和机器学习,从头开始创建肉眼可检测的荧光分子
305 0
|
机器学习/深度学习 人工智能
AI:2020年6月24日北京智源大会演讲分享之机器学习前沿青年科学家专题论坛——10:40-11:10金驰《Near-Optimal Reinforcement Learning with Sel》
AI:2020年6月24日北京智源大会演讲分享之机器学习前沿青年科学家专题论坛——10:40-11:10金驰《Near-Optimal Reinforcement Learning with Sel》
AI:2020年6月24日北京智源大会演讲分享之机器学习前沿青年科学家专题论坛——10:40-11:10金驰《Near-Optimal Reinforcement Learning with Sel》

热门文章

最新文章