机器学习指导催化剂设计,提高反应的产率

简介: 机器学习指导催化剂设计,提高反应的产率

准确识别催化活性的描述符对深入理解催化作用,以及为催化剂筛选奠定基础至关重要。然而,常用方法的可预测性和准确性低。近日,美国纽约州立大学石溪分校(SUNY SB)和布鲁克海文国家实验室(BNL)的化学家开发了一种新的机器学习 (ML) 框架,该框架可以锁定多步化学转化的哪些步骤应该进行调整以提高生产率。该方法可以帮助指导催化剂的设计。该研究以「Enhanced descriptor identification and mechanism understanding for catalytic activity using a data-driven framework: revealing the importance of interactions between elementary steps」为题,发表在《Catalysis Science & Technology》上。该论文第一作者 Wenjie Liao 说:「我们的目标是确定反应网络中的哪个基本步骤或哪个步骤子集控制催化活性。」以铜基催化剂上的 CO 加氢制甲醇为例,该反应由七个相当简单的基本步骤(基元反应)组成。该团队开发了使用铜基催化剂分析 CO 转化为甲醇的方法。领导这项工作的化学家 Ping Liu 说:「我们使用这个反应作为我们的 ML 框架方法的一个例子,但是你可以将任何反应放入这个框架中。」将多步化学反应想象成具有不同高度的山丘的过山车。每个山丘的高度代表从一个步骤到下一个步骤所需的能量。为了加快整体反应,催化剂必须针对影响最大的一个或多个步骤。传统上,寻求改善这种反应的科学家会计算每次改变一个活化障碍可能会如何影响整体生产率。这种类型的分析可以确定哪个步骤是「限速」的,哪些步骤决定了反应的选择性——也就是说,反应物是生成期望的产物,还是通过其他途径生成不想要的副产物。但是,据 Liu 说,「这些估计结果非常粗略,对于一些催化剂组有很多错误。这对催化剂设计和筛选非常不利,而这正是我们正在努力做的事情。」新的机器学习框架旨在改进这些估计,以便科学家能够更好地预测催化剂将如何影响反应机制和化学品产量。「现在,我们不是一次解决一个障碍,而是同时解决所有障碍。我们使用机器学习来解释该数据集。该方法提供了更可靠的结果,包括反应中的各个步骤如何协同工作。」 Liao 说。在这里,研究人员开发了一种替代方法,该方法遵循完善的从数据中提取知识的框架,以提高描述符识别的准确性和效率。还采用了常用的「速率控制程度」(DRC) 分析方法进行比较。这种新方法利用了全局敏感性分析中的代理模型和机器学习(ML),与正交多项式函数等传统代理模型相比,ML 可以访问一系列灵活的非参数回归模型,提供有效的数据驱动函数逼近。结果表明,新方方法比现有的基于尺度关系和导数的方法要准确得多,能够大大提高描述符识别和速率预测的准确性。更重要的是,它还可以通过评估代理模型进行动力学分析计算成本的增加可以忽略不计,因此可以提取更好的机制理解和最终设计指南。构建模型科学家们首先构建了一个数据集来训练他们的机器学习模型。该数据集是基于 DFT 计算的活化能,通过反应的七个步骤,将原子的一种排列方式转变为另一种排列方式。然后,科学家们进行了基于计算机的模拟,以探索如果他们同时改变所有七个激活障碍会发生什么——一些上升,一些下降,一些单独,一些成对。「我们包含的数据范围是基于对这些反应和催化系统的以往经验,在有趣的变化范围内,这可能会给你带来更好的性能。」Liu 说。通过模拟 28 个「描述符」的变化——包括七个步骤的活化能,以及一次改变两个步骤的成对步骤——该团队生成了一个包含 500 个数据点的综合数据集。该数据集预测了所有这些单独的调整和成对的调整将如何影响甲醇生产。然后,该模型根据 28 个描述符在推动甲醇产量方面的重要性对它们进行评分。「我们的模型从数据中 [学习],并确定了它预测将对生产产生最大影响的六个关键描述符。」Liao 说。在确定了重要的描述符之后,科学家们只使用这六个「活跃」描述符重新训练了 ML 模型。这种改进的 ML 模型能够完全基于这六个参数的 DFT 计算来预测催化活性。

图示:kMC-在训练集、测试集和金属-Cu(111)(M = Au, Cu, Pt, Pd, Ni)上模拟甲醇转换频率(TOF)和改进 ML 模型预测的值。

虽然描述符的数量从 28 个大幅减少到 6 个,但在训练集和测试集中,RMSE 测量的模型精度甚至比初步模型略有提高,表明删除的描述符大多是非信息性的。「你不必计算整个 28 个描述符,现在你可以只计算 6 个描述符,得到你感兴趣的甲醇转化率。」Liu 说。为了确认所选描述符的有效性,从重新训练的模型中一次删除一个。结果表明,每个有效描述符的删除导致测试集中的预测准确度大幅下降。有趣的是,去除归一化二阶描述符后的准确度损失甚至大于去除一阶描述符,这表明包含所有六个描述符是必要的,并且归一化二阶描述符对于实现高可预测性比一阶描述符更重要。

图示:删除指示的描述符后,由测试集中的 RMSE 测量的精度损失。

该团队表示,他们还可以使用该模型来筛选催化剂。如果他们可以设计一种催化剂来提高六个活性描述符的值,那么该模型可以预测最大的甲醇生产率。了解机制当研究小组将模型的预测与催化剂的实验性能以及各种金属与铜的合金的性能进行比较时,预测与实验结果相符。将 ML 方法与以前用于预测合金性能的方法进行比较表明,ML 方法要优越得多。这些数据还揭示了许多关于能垒变化如何影响反应机制的细节。特别有趣和重要的是,反应的不同步骤如何协同工作。例如,数据表明,在某些情况下,仅在限速步骤中降低能垒本身并不能提高甲醇产量。但是,调整反应网络中更早一步的能垒,同时将限速步骤的活化能保持在理想范围内,会增加甲醇产量。「我们的方法为我们提供了详细的信息,我们可能可以用来设计一种催化剂,很好地协调这两个步骤之间的相互作用。」Liu 说。但 Liu 对将这种数据驱动的 ML 框架应用于更复杂的反应的潜力感到最兴奋。Liu 说:「我们使用甲醇反应来演示我们的方法。但它生成数据库的方式,以及我们训练 ML 模型的方式,以及我们如何根据每个描述符函数的作用来确定其重要性的整体权重的方式,这很容易应用于其他反应中。」

论文链接:https://pubs.rsc.org/en/content/articlelanding/2022/CY/D2CY00284A

参考内容:https://phys.org/news/2022-05-machine-framework-ids-catalysts.html

相关文章
|
存储 编解码 对象存储
Python提取指定时间、经度与纬度的NC数据
【2月更文挑战第15天】本文介绍基于Python语言的netCDF4库,读取.nc格式的数据文件,并提取指定维(时间、经度与纬度)下的变量数据的方法~
611 3
Python提取指定时间、经度与纬度的NC数据
|
机器学习/深度学习 传感器 算法
【特征提取】语音信号端点检测+倒谱法+自相关法特征提取附Matlab源码
【特征提取】语音信号端点检测+倒谱法+自相关法特征提取附Matlab源码
|
9月前
|
机器学习/深度学习 算法 自动驾驶
《从GRPO看强化学习样本效率的飞跃!》
在强化学习领域,样本效率一直是亟待解决的难题。传统算法如Q学习需海量样本才能让智能体学会有效行为模式,尤其在复杂环境中,这成为应用瓶颈。群组相对策略优化(GRPO)应运而生,通过生成动作序列并进行相对评估,摒弃了价值网络,显著提升了样本利用率和计算效率。GRPO在实际应用中展现了巨大优势,如DeepSeek团队利用其大幅减少了训练样本和成本,提高了模型性能。这一创新为资源受限场景及更多领域的强化学习应用打开了新大门。
771 0
《从GRPO看强化学习样本效率的飞跃!》
|
Ubuntu Shell 芯片
配置udev规则
本文介绍了如何配置udev规则以解决USB设备别名问题,包括为特定USB设备创建别名、修改设备权限、重新加载udev规则以及设置Python包管理工具pip的镜像源以加速下载。
499 0
|
机器学习/深度学习 开发者 Python
Python中进行特征重要性分析的9个常用方法
在Python机器学习中,特征重要性分析是理解模型预测关键因素的重要步骤。本文介绍了九种常用方法:排列重要性、内置特征重要性(如`coef_`)、逐项删除法、相关性分析、递归特征消除(RFE)、LASSO回归、SHAP值、部分依赖图和互信息。这些方法适用于不同类型模型和场景,帮助识别关键特征,指导特征选择与模型解释。通过综合应用这些技术,可以提高模型的透明度和预测性能。
1348 0
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
|
XML 前端开发 数据格式
selenium--Xpath定位
selenium--Xpath定位
|
负载均衡 网络协议 安全
DNS解析中的Anycast技术:原理与优势
【9月更文挑战第7天】在互联网体系中,域名系统(DNS)将域名转换为IP地址,但网络规模的扩张使DNS解析面临高效、稳定与安全挑战。Anycast技术应运而生,通过将同一IP地址分配给多个地理分布的服务器,并依据网络状况自动选择最近且负载低的服务器响应查询请求,提升了DNS解析速度与效率,实现负载均衡,缓解DDoS攻击,增强系统高可用性。此技术利用动态路由协议如BGP实现,未来在网络发展中将扮演重要角色。
1092 0
|
前端开发 JavaScript Java
基于SpringBoot的社区空巢老人健康管理系统的设计与实现
基于SpringBoot的社区空巢老人健康管理系统的设计与实现
523 0
|
弹性计算 容灾 安全
阿里云服务器购买指南(超详细)
阿里云服务器购买指南(超详细)2023阿里云服务器选购流程更新,选购云服务器有两个入口,一个是选择活动机,只需要选择云服务器地域、系统、带宽即可;另一个是在云服务器页面,自定义选择云服务器配置,这种方式购买云服务器较为复杂,需要选付费方式、地域及可用区、ECS实例规格、镜像、网络、公网IP、安全组等配置,阿里云百科来阿里云服务器购买流程指南2023新版教程:
861 0