语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

简介: 语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了


Meta:设计蛋白质这件事,语言模型就能干。

用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。


如在 2021 年 《Science》的十大年度突破中,DeepMind 携预测蛋白质结构的 AI 模型 AlphaFold 上榜,在这项工作的基础上,研究人员现在已经使用人工智能来设计可用于疫苗、建筑材料或纳米机器的全新蛋白质。


在《Science》今年 9 月发表的一篇论文中,华盛顿大学医学院生物化学教授 David Baker 等研究者提出,AI 可以通过两种思路从头设计蛋白质。


当然,对这一领域的热情,自然也少不了 Meta 的加入,就在刚刚过去的 11 月,Meta 拿下微生物领域蛋白质结构预测,开放 6 亿 + 宏基因组蛋白质结构图谱,这是首个蛋白质宇宙「暗物质」的综合视图。


时间刚刚过去一个月,在 FAIR 公布的最新两篇论文中,该研究发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质,并可以编程生成复杂和模块化的蛋白质结构。其中 ESM2 模型参数为 150 亿,是迄今为止最大的蛋白质语言模型。



Yann LeCun 在推特上表示:FAIR 开发的新蛋白质设计系统,可以产生与自然界中观察到的蛋白质完全不同的蛋白质;在这个蛋白质设计系统之上,蛋白质可以通过一种编程语言来指定。




在论文《Language models generalize beyond natural proteins》中,ESM2 通过学习深层语法,成功设计了 152 种蛋白质。



论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf


在论文《A high-level programming language for generative protein design》中,该研究实现了一种用于生成蛋白设计的高级编程语言。这使得编程生成具有复杂和模块化结构的大蛋白质和复合物成为可能。



论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf


ESM2 设计蛋白质


在论文《Language models generalize beyond natural proteins》中,研究者专注于两个蛋白质设计任务:


  • 指定结构的固定骨架设计;
  • 从模型中采样结构的无约束生成。


尽管语言模型仅针对序列进行训练,但该研究发现它们能够设计结构。在该研究的实验结果中,一共生成了 228 种蛋白质,设计成功的比率是 152/228(67%)。


在 152 个实验成功的设计中,有 35 个与已知的天然蛋白质没有明显的序列匹配。


对于固定主干设计,语言模型成功为 8 个经过实验评估的人工创建的固定主干目标生成了蛋白质设计。


对于不受约束生成的情况,采样的蛋白质涵盖了不同的拓扑结构和二级结构组成,结果具有很高的实验成功率 71/129(55%)。


,时长00:13

该研究用语言模型设计的蛋白质反映了连接序列和结构的深层模式,包括已在自然结构中出现的基序,和在已知蛋白质的结构环境中未观察到的基序。实验结果表明,语言模型虽然只接受序列训练,但通过学习深层语法就可以设计蛋白质结构,并且设计出自然界中未出现过的蛋白质。


下图 1 是 ESM2 模型设计蛋白质的总体流程:



该研究通过分析比较,归纳出语言模型在蛋白质设计过程中的作用,如下图 2 所示:



实验结果表明,ESM2 模型能够生成自然界已有的蛋白质结构和全新的蛋白质结构:




一种用于生成蛋白质设计的高级编程语言


对于蛋白质来说,我们不能将其分解为易重组部分,因为蛋白质序列的局部结构纠缠在其全局背景中,传统的设计方法试图确定一组基本的结构构件,然后在组装成更高阶的结构。然而,现有方法还不能达到真正可编程性所必需的高度组合复杂性。


该研究从模块化和可编程性入手,将两者置于更高的抽象层次,蛋白质设计者只需要重新组合高级指令,然后在生成模型上执行指令即可。


他们提出的生成蛋白质设计的编程语言,允许设计人员指定直观、模块化和分层的程序。该编程语言首先需要一个语法树 (图 1A),由末端符号 (即树的叶子) 和非末端符号 (即树的内部节点) 组成,前者对应一个独特的蛋白质序列 (在蛋白质中可能重复),后者支持分层组织。


此外还需要一个基于能量的生成模型。首先,蛋白质设计器指定一个高级程序,该程序由一组按层次组织的约束组成(图 1A)。然后,该程序编译为一个能量函数,用于评估与约束的兼容性,约束是任意的且不可微的(图 1B)。最后通过将原子级结构预测(由语言模型支持)合并到能量函数中,可以生成大量复杂的蛋白质设计(图 1C)。



下图为模型生成的高置信度结构(图 2A 和 2B)。


图 2。


下图为生成模型产生了一组不同的高置信度结构(图 3B、S2A 和 S2B),包括自然界中蛋白质的各种折叠(卷曲螺旋、β 螺旋桨状、β 桶状和 TIM 桶状)以五角星形状蛋白质(图 3B 中的第 1 行和第 3 列)和立方体状蛋白质 (图 3B 中的第 2 行和第 2 列)。


图 3。


了解更多研究,请参考原论文。

相关文章
|
存储 监控 算法
ClickHouse源码分析-压缩算法大揭秘
ClickHouse在近年来增加了很多压缩算法,最主要的改进还是为了更好的适应时序场景,提高压缩率,节省存储空间。本期就给大家带来ClickHouse的压缩算法介绍。
5840 0
ClickHouse源码分析-压缩算法大揭秘
|
4月前
|
IDE 开发工具 Windows
磁盘损坏导致无法开机怎么办?
电脑无法开机可能是磁盘损坏所致,常见原因包括物理损坏、逻辑错误、接口问题或系统文件损坏。本文详解判断方法与应对措施,帮助你快速定位问题并恢复系统或数据。
|
人工智能 物联网 UED
自修复材料:未来材料的自我修复能力
【10月更文挑战第14天】自修复材料作为未来材料的重要发展方向之一,以其独特的自我修复能力,正逐步改变着我们的生活和工作方式。通过深入了解其原理、分类、创新性研究及应用前景,我们可以更加清晰地看到自修复材料在推动社会进步和科技创新中的重要作用。让我们共同期待自修复材料在未来带来的更多惊喜和变革!
|
8月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
966 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
存储 JSON 索引
一文让你彻底搞懂 Python 字典是怎么实现的
一文让你彻底搞懂 Python 字典是怎么实现的
469 13
|
存储 Java Linux
SpringBoot集成海康网络设备SDK
概述 设备网络SDK是基于设备私有网络通信协议开发的,为嵌入式网络硬盘录像机、NVR、网络摄像机、网络球机、视频服务器、解码器、报警主机、网络存储等产品服务的配套模块,用于远程访问和控制设备软件的二次开发。 功能 图像预览, 文件回放和下载, 云台控制, 布防/撤防, 语音对讲, 日志管理, 解码卡, 远程升级, 远程重启/关闭, 格式化硬盘, 参数配置(系统配置, 通道配置, 串口配置, 报警配置, 用户配置), 多路解码器, 智能设备功能和获取设备能力集等。
2003 98
|
消息中间件 监控 Go
Go语言在微服务架构中的优势与实践
【10月更文挑战第10天】Go语言在微服务架构中的优势与实践
|
机器学习/深度学习 自然语言处理 算法
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战
【4月更文挑战第13天】Mamba模型,一种新型序列建模架构,通过选择性状态空间提高处理长序列数据的效率,实现线性时间复杂度。在语言、音频和DNA序列建模中展现优秀性能,尤其在大规模预训练中超越Transformer。然而,面对连续信号数据时可能不及LTI模型,且模型参数优化及硬件实现具有挑战性。
756 6
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战
|
存储 Ubuntu Linux
查看 Linux 内核以及系统版本的几种方法
查看 Linux 内核以及系统版本的几种方法,以 Ubuntu 为例,介绍几个用来查看系统与内核版本的命令,拿起小本本记录下来!
3020 118