Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人(2)

简介: Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

Brian Hie认为,这一成果是朝着更可控、更有规律、更有表现力的蛋白质设计迈出的一步。他也感谢了来自Meta AI和其他合作者的共同努力。让蛋白质设计「就像盖大楼」在论文中,研究人员认为,蛋白质设计将受益于一套基本的抽象概念所提供的规律性、简单性和可编程性,就像那些用于建筑、机器、电路和计算机软件工程的抽象概念一样。但与这些人工创造物不同的是,蛋白质不能被分解成容易重组的部分,因为序列的局部结构与它的整体环境纠缠在一起。经典的从头开始的蛋白质设计试图确定一套基本的结构构件,然后将其组装成高阶结构。同样,传统的蛋白质工程通常将天然蛋白质序列的片段或结构域重组为混合嵌合体。然而,现有的方法还不能实现真正可编程性所需的高组合复杂性。本文展示了现代生成模型在新的组合复杂性水平上实现了模块化和可编程性的经典目标。把模块化和可编程性放在一个更高的抽象水平上,在这个水平上,生成式模型弥补了人类直觉和特定序列和结构的产生之间的差距。在这种情况下,蛋白质设计者只需要重新组合高层次的指令,而获得满足这些指令的蛋白质的任务则放在生成模型上。研究人员提出了一种用于生成性蛋白质设计的编程语言,允许设计者指定直观的、模块化的和分层次的程序。高层次的程序可以通过生成模型转化为低层次的序列和结构。这套方法利用了蛋白质语言模型的进展,可以学习结构信息和蛋白质的设计原则。在这项研究中的具体实施基于一个基于能量的生成模型,如上图所示。首先,一个蛋白质设计者指定了一个由一组分层组织的约束条件组成的高级程序(图A)。然后,这个程序编译成一个能量函数,评估与约束条件的兼容性,这些约束条件可以是任意的和不可区分的(图B)。通过将原子级结构预测(由语言模型启用)纳入能量函数来应用结构上的约束。这种方法能够生成广泛的复杂设计(图C)。

从无到有生成蛋白质序列

在论文「Language models generalize beyond natural proteins」中,来自MetaAI团队的作者Tom Sercu表示,这个工作主要完成了两项任务。

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1第一项是为给定的主链结构设计序列。使用语言模型,可以获得针对所有目标的成功设计,成功率达19/20,而没有语言模型参与的序列设计,成功率只有1/20。

第二个任务是无约束生成。研究团队提出了一种从语言模型定义的能量景观中采样(序列、结构)对的新方法。通过不同的拓扑结构进行采样,再次提高实验的成功率(达71/129或55%)。为了证明预测的蛋白质结构超越了天然蛋白质的限制,研究团队在涵盖所有已知天然蛋白质的序列数据库中,对语言模型生成的蛋白质序列进行搜索。结果显示,二者并无匹配关系,自然序列和语言模型生成的预测结构不同。Sercu表示,可以单独使用ESM2蛋白质语言模型对蛋白质结构进行设计。研究团队通过实验测试了228种蛋白质,成功率为67%!Sercu认为,仅在序列上训练的蛋白质语言模型可以学习连接序列和结构的深层模式,并且可以用于从头设计蛋白质,超出了自然探索的设计空间。探索蛋白质生成的深层语法在论文中,Meta的研究人员表示,虽然只对语言模型在序列上训练,模型依然能够设计蛋白质的深层语法结构,突破天然蛋白质的局限。如果用A图的方块表示所有蛋白质序列构成的空间,那么天然蛋白质序列是灰色部分,覆盖了其中一小部分。为了超越自然序列进行推广,语言模型需要访问底层设计模式。研究团队要做的是两件事:第一,从头设计蛋白质(de novo)主链;第二,根据主链,从无到有生成蛋白质序列。研究团队使用掩码语言模型,对ESM2进行训练,训练内容包括进化过程中数百万种不同的天然蛋白质。语言模型训练后,可以在模型的内部attention状态中识别有关蛋白质三级结构的信息。之后,研究人员通过线性投影,将蛋白质序列中一对位置的attention转换为残基间距离的分布。研究人员表示,语言模型预测蛋白质结构的能力,指出了构成天然蛋白质序列背后更深层次的结构序列,以及存在一个可由模型学习的深层语法的可能性。结果表明,在进化过程中,大量蛋白质序列包含的生物结构和功能,揭示了蛋白质的设计构造。这种构造完全可以通过学习蛋白质序列的机器模型得以重现。

语言模型在6项实验中成功预测的蛋白质结构跨蛋白质的深层语法的存在,解释了似乎相互矛盾的两组发现:对天然蛋白质的理解取决于训练数据;而语言模型又可以在已知的天然蛋白质家族之外进行预测和探索。如果蛋白质语言模型的缩放定律继续有效,可以预料,AI语言模型的生成能力将不断提高。研究团队表示,由于存在蛋白质结构的基础语法,机器模型将学习更加罕见的蛋白质构造,从而扩展模型的预测能力和探索空间。一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。一年后,人工智能预测模型如雨后春笋,频频填补蛋白质结构领域的空白。如果说人类给予人工智能以生命,那么人工智能是否是人类补全生命奥秘的最后一块拼图呢?参考资料:https://twitter.com/TomSercu/status/1606075975891972096https://twitter.com/BrianHie/status/1606074806620737536https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

相关文章
|
Java 数据库连接
什么是双亲委派?如何打破双亲委派?
什么是双亲委派?如何打破双亲委派?
327 0
|
SQL 运维 API
Apache Flink 学习教程----持续更新
Apache Flink 学习教程----持续更新
549 0
|
Java 编译器 程序员
Checked Exception 和 Unchecked Exception 有什么区别?
Checked Exception 和 Unchecked Exception 有什么区别?
|
11月前
|
存储 算法 安全
探究‘公司禁用 U 盘’背后的哈希表算法与 Java 实现
在数字化办公时代,信息安全至关重要。许多公司采取“禁用U盘”策略,利用哈希表算法高效管理外接设备的接入权限。哈希表通过哈希函数将设备标识映射到数组索引,快速判断U盘是否授权。例如,公司预先将允许的U盘标识存入哈希表,新设备接入时迅速验证,未授权则禁止传输并报警。这有效防止恶意软件和数据泄露,保障企业信息安全。 代码示例展示了如何用Java实现简单的哈希表,模拟公司U盘管控场景。哈希表不仅用于设备管理,还在文件索引、用户权限等多方面助力信息安全防线的构建,为企业数字化进程保驾护航。
|
关系型数据库 分布式数据库 数据库
【PolarDB 开源】PolarDB 性能调优实录:提升数据库集群吞吐量的技巧
【5月更文挑战第22天】PolarDB 性能调优关键点包括硬件资源配置、数据库参数调整、索引优化、分区策略、事务优化及性能监控。创建高效索引如`CREATE INDEX idx_name ON table_name (column_name);`,根据业务场景选择分区方式,调整事务隔离级别以提升并发性能。监控 CPU、内存等指标,定期维护数据库,结合业务特点综合调优,从而提升数据库集群吞吐量。这些技巧有助于发挥PolarDB潜力,支持业务高效运行。
745 6
|
12月前
|
Java 程序员 调度
【JavaEE】线程创建和终止,Thread类方法,变量捕获(7000字长文)
创建线程的五种方式,Thread常见方法(守护进程.setDaemon() ,isAlive),start和run方法的区别,如何提前终止一个线程,标志位,isinterrupted,变量捕获
|
JSON 网络协议 安全
《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(1)-HTTP和HTTPS基础知识
【7月更文挑战第16天】本文介绍了HTTP和HTTPS协议的基本概念与作用,强调了理解HTTP协议对使用抓包工具Fiddler的重要性。HTTP是用于Web浏览器与服务器间信息传输的协议,不加密,易被截取,不适合传输敏感信息。HTTPS是HTTP的安全版,通过SSL/TLS提供加密和服务器身份验证,确保数据安全。HTTP请求包括请求行、请求头、空行和可选的请求主体,响应则有响应行、响应头、空行和响应主体。HTTP协议无状态,而HTTPS解决了安全性问题,但也带来了额外的计算开销。Fiddler作为一个强大的抓包工具,可以帮助开发者和测试人员分析HTTP/HTTPS通信,理解请求和响应的结构。
502 4
《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(1)-HTTP和HTTPS基础知识
|
Ubuntu Linux 网络安全
在Linux中,如何配置VPN连接?
在Linux中,如何配置VPN连接?
|
Oracle 关系型数据库 Java
实时计算 Flink版操作报错合集之cdc postgres数据库,当表行记录修改后报错,该如何修改
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。