基于Transformer的蛋白质生成,具有正则化潜伏空间优化

简介: 基于Transformer的蛋白质生成,具有正则化潜伏空间优化

强大的自然语言模型的发展提高了学习蛋白质序列有意义表示的能力。此外,高通量诱变、定向进化和下一代测序的进步已经允许积累大量标记的适应度数据。

利用这两个趋势,耶鲁大学的研究人员引入了正则化潜在空间优化(ReLSO),这是一种基于深度 Transformer 的自动编码器,具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。通过正则化的预测头,ReLSO 引入了一个强大的蛋白质序列编码器和一种高效的适应性景观遍历的新方法。

使用 ReLSO,研究人员对大型标记数据集的序列函数景观进行建模,并通过使用基于梯度的方法在潜在空间内进行优化来生成新分子。

该团队在几个公开可用的蛋白质数据集上评估这种方法,包括抗雷珠单抗和绿色荧光蛋白的变体集。与其他方法相比,研究人员观察到使用 ReLSO 的序列优化效率更高(每个优化步骤的适应度增加),其中 ReLSO 更稳健地生成高适应度序列。此外,联合训练的 ReLSO 模型学习的基于注意力的关系为序列级适应度归因信息提供了潜在途径。

该研究以「Transformer-based protein generation with regularized latent space optimization」为题,于 2022 年 9 月 26 日发布在《Nature Machine Intelligence》。

基于序列的蛋白质设计的主要挑战是可能序列的巨大空间。一个 30 个残基的小蛋白质(真核生物的平均长度 ≈ 472)转化为 10^38 的总搜索空间——远远超出现代高通量筛选技术的范围。

上位性(序列中远处残基上的氨基酸之间的高阶相互作用)进一步加剧了这一障碍,这使得难以预测序列中的微小变化对其特性的影响。总之,这激发了对能够更好地利用序列-功能关系(通常使用适应度景观进行描述)的方法的需求,以更有效地生成具有所需特性的蛋白质序列。

图示:ReLSO 将序列映射到正则化模型适应度环境。(来源:论文)

为了解决这个问题,耶鲁大学的研究团队提出了一种数据驱动的深度生成方法,称为正则化潜在空间优化 (ReLSO)。ReLSO 利用最近库生成和表型筛选技术的改进所产生的更丰富的标记数据来学习联合序列和结构信息的高度结构化的潜在空间。此外,研究人员在 ReLSO 的潜在空间中引入了新的正则化,以便可以使用适应度函数上的梯度上升直接在潜在空间中优化和重新设计分子。

尽管蛋白质的适应度(研究人员通常使用这个术语来指代氨基酸序列拥有的某些可量化水平的功能:例如,结合亲和力、荧光、催化和稳定性)更直接地是其折叠的三维结构而不是严格的氨基酸序列的结果,但通常最好将适应度直接与序列联系起来,因为结构信息可能并不总是可用的。事实上,在为治疗发现或合成生物学生成变体库时,无论是通过设计的组合方法还是通过随机诱变,解决产生的通常 10^3 – 10^9 变体中的每一个变体的结构都是成本高昂的。

在这里,研究人员观察到蛋白质设计基本上是在复杂而广阔的氨基酸序列空间中的搜索问题。对于大多数生物学相关的蛋白质,序列长度可以从几十到几千个残基不等。由于 N 长度序列的每个位置可能包含 20 种可能的氨基酸之一,因此产生的组合空间(≈20^N 序列)通常太大而无法彻底搜索。

值得注意的是,尽管非规范替代品的数量越来越多,但仅考虑规范氨基酸就会出现这个问题。这个搜索空间规模的一个主要后果是,大多数公开可用的数据集,尽管它们的规模很大,但只捕获了一小部分可能的序列空间,因此绝大多数可能的变体都没有被探索。

为了导航序列空间,通常应用称为定向进化的迭代搜索过程,其中生成成批的随机序列并筛选感兴趣的功能或属性。然后将最佳序列转移到下一轮文库生成和选择。实际上,这相当于使用「爬山」方法搜索序列空间,因此容易受到可能掩盖更好序列发现的局部最大值的影响。蛋白质设计的其他方法包括基于结构的设计,其中理想的结构是先验选择的,任务是使序列适合设计。

近期,出现了几种有前途的方法,将深度学习融入蛋白质的设计、搜索和优化中。然而,这些方法通常用于计算机筛选,通过训练模型直接从输入的氨基酸序列预测适应度分数。最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。

最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。

所以,研究人员提出了 ReLSO,这是一种基于深度 Transformer 的蛋白质设计方法,它将 Transformer 模型的强大编码能力与产生信息丰富、低维潜在表示的瓶颈相结合。

ReLSO 中的潜在空间除了是低维的外,还通过潜在空间的适应度预测被正则化为(1)关于结构和适应度的平滑,(2)训练数据点之间的连续和可插值;(3)基于数据外负采样的伪凸。这种高度设计的潜在空间可以使用适应度的梯度上升直接在潜在空间中进行优化,并收敛到一个最佳值,然后可以将其解码回序列空间。

图示:ReLSO 学习蛋白质序列的平滑表示。(来源:论文)

ReLSO 的主要贡献包括以下内容。

使用具有自动编码器类型瓶颈的基于 Transformer 的编码器的新颖用途,用于对蛋白质序列进行丰富且可解释的编码。

由序列-函数关系组织的潜在空间,可缓解由于组合爆炸而导致的优化困难。

一个凸潜在空间,使用基于范数的负采样进行重塑,以诱导自然边界和基于梯度的优化的停止标准。

一种基于插值的正则化,在遍历潜在空间时强制解码序列空间逐渐变化。这允许对训练数据所在的底层序列流形进行更密集的采样。

用于从潜在空间生成新序列的梯度上升算法。

图示:抗雷珠单抗抗体的蛋白质序列优化。(来源:论文)

找到更好的表示的能力对于从蛋白质生物学领域的嘈杂、高维数据中提取见解至关重要。由它们的生化相互作用、进化选择压力和功能稳定性权衡所定义,蛋白质对于深度学习的应用来说是一个越来越重要的领域。更具体地说,生物治疗开发领域从线性和非线性模型的应用中受益匪浅。该领域中一些非常有影响力的模型在很大程度上受到了监督,但最近的研究证明了利用无监督学习来预训练预测模型以识别具有增强的感兴趣特性的蛋白质序列的有用性。

耶鲁大学团队是采用了一种结合这两种学习目标的替代路径,而是采用了多任务学习方法。通过同时优化蛋白质序列生成和适应度水平预测,他们明确地实施了一个富含序列和适应度信息的潜在空间。重要的是,这种适应度信息可能包含各种不同的属性,例如结合亲和力和荧光,它们平滑地嵌入到训练的模型的潜在空间中。然后,添加反映蛋白质工程原理的正则化,重塑过程中的潜在空间。利用这些正则化和模型架构,研究人员展示了梯度上升优化如何在搜索蛋白质序列空间时改进蛋白质优化。

图示:利用 ReLSO 中的注意力关系进行适应性归因。(来源:论文)

这种方法与其他方法的不同,证明了一种新的、有前途的途径,这可以提高设计和优化蛋白质的能力。此外,这种方法仅依赖与适应度值配对的序列信息表明,类似 ReLSO 的架构可以应用于其他生物分子,例如 DNA 和 RNA。特别是,核酸的一种应用是优化基因编辑工具,例如 CRISPR-Cas9,以减少脱靶效应。

具体来说,这是一个有趣的途径,通过调整结合亲和力以增加对某个目标或同种型的选择性,但针对其他目标或异构体以减轻脱靶毒性。随着生物疗法的日益突出,这一研究方向有可能在改进疗法的开发中提供改进。

论文链接:https://www.nature.com/articles/s42256-022-00532-1

相关文章
|
4月前
|
文字识别 自然语言处理 数据处理
《大模型赋能文化遗产数字化:古籍修复与知识挖掘的技术实践》
本文记录大模型赋能文化遗产数字化的实践,针对古籍异体字识别难、残缺文本补全不准、隐性知识难挖掘、多模态数据割裂、中小机构部署难、知识难更新等痛点,提出对应方案:搭建古籍文字与语境知识库提升识别理解率,以多源史料关联与历史逻辑约束实现文本精准补全,构建多层级框架挖掘隐性知识,设计多模态语义对齐整合多元信息,通过轻量化优化与混合部署降低使用门槛,建立动态机制保障知识迭代。优化后多项关键指标显著提升,为古籍数字化提供有效路径。
303 9
|
11月前
|
人工智能 算法 测试技术
推动大模型自我进化,北理工推出流星雨计划
北京理工大学提出SRA-MCTS(Self-driven Reasoning Augmentation with Monte Carlo Tree Search),一种通过蒙特卡洛树搜索增强大型语言模型推理能力的方法,专注于复杂代码生成任务。该方法让模型自主生成高质量中间推理路径,提升代码生成的准确性和多样性。实验表明,SRA-MCTS在多个基准测试中显著优于传统CoT方法,尤其在小模型上表现出强大自我改进能力。然而,方法仍存在小模型评估能力和MCTS超参数调整依赖人工经验等局限性,未来将探索更先进的评估模型和算法优化。
232 18
|
关系型数据库 MySQL Linux
通过虚拟机进行安装Centos7.0并且安装MySQL
通过虚拟机进行安装Centos7.0并且安装MySQL
278 0
|
机器学习/深度学习 算法 算法框架/工具
改进的yolo目标检测(yolo创新与改进)
改进的yolo目标检测(yolo创新与改进)
|
数据采集 云安全 SQL
数字化时代下的网络安全,漏洞扫描工具提供更好的保障
在数字化时代,企业的网络安全对于其成功实现数字化转型具有重要意义。漏洞扫描工具作为网络安全防护的重要组成部分,能够帮助企业快速发现漏洞,提高数字化转型的安全性和稳定性。
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能垃圾分类与回收系统
【8月更文挑战第20天】 使用Python实现深度学习模型:智能垃圾分类与回收系统
778 1
|
算法 安全 虚拟化
|
安全 关系型数据库 Linux
|
自然语言处理 Shell 开发者
|
移动开发 JavaScript 小程序
uniapp为什么能支持多端开发?uniapp底层是怎么做的?
uniapp为什么能支持多端开发?uniapp底层是怎么做的?
701 0

热门文章

最新文章