量身定制的蛋白质设计
NLP 的下一个重要步骤及其在定制蛋白质设计中的应用是在训练期间包含功能标签。最近,Gligorijević 团队实现了一个去噪自编码 Transformers,其中某个输入序列被转换为一个具有卓越质量和某种功能的输出序列。然而,关于可控文本生成的最重要的工作之一可能是条件 Transformers 语言(CTRL)的开发,这是一种自回归模型,包括能够在不依赖输入序列的情况下可控地生成文本的条件标签。这些标签,称为控制代码,允许用户更具体地影响流派、主题或风格等——这是朝着目标导向的文本生成迈出的一大步。在 CTRL 实施后不久,作者将该模型应用于包含 2.81 亿个蛋白质序列的数据集。该模型名为 ProGen,包含作为条件标签的 UniparKB 关键字,这是一个十类词汇,包括「生物过程」、「细胞成分」或「分子功能」。条件标签总共包含 1,100 多个术语。ProGen 提出了代表高质量英语语言模型的「困惑」,即使在训练集中不存在的蛋白质家族上也是如此。随机序列的生成和他们的 Rosetta 能量评估表明,这些序列比随机序列具有更好的分数。作者分析了 ProGen 完成截短激酶结构域的能力,结果表明所有完成的蛋白质都保持接近天然蛋白质的 Rosetta 评分。作为生成能力的最后一个测试,几个蛋白质 G 结合域变体通过了 ProGen,并且选择具有最低困惑值的前 100 个变体,提供了比随机突变更好的适应度分数。在这项工作的后续应用中,作者在对五个不同的蛋白质家族进行微调后,将 ProGen 应用于溶菌酶的生成。实验验证表明,生成的序列在天然溶菌酶范围内具有酶活性,其中一种变体的 X 射线表征表明它概括了天然 3D 结构。这些研究突出了一个有前途的新研究领域:使用条件 Transformers 可控生成蛋白质序列。在基于 Transformers 的蛋白质语言模型中包含条件标签不仅可以像以前的工作那样生成新的序列,而且还可能提供对这些蛋白质特性的控制。我们将在这里提到一些可能性。首先,我们设想直接生成具有包含在训练集中的属性的序列,例如结合 ATP、折叠成全β结构或膜结合。其次,研究出现在蛋白质空间的几个区域中的属性标签很重要,例如「膜蛋白」或「ATP 结合」。输出序列可能会为这些特性提供迄今为止未知的解决方案——序列空间未探索区域中的蛋白质——并提供理解它们对这些功能特征的结构要求的方法。最后,条件 Transformers 将使具有新功能的蛋白质的定制设计成为可能。类似于控制标签的组合,例如 style + topic(「poetry」 +「politics」),提供特定的文本,蛋白质特性的融合可以创造新的功能,例如「hydrolase」 +「PET binding」或「膜结合」+「蛋白酶」。通过提示语言模型生成定制序列的能力将是蛋白质研究的一个变革性里程碑,但其实施并非没有挑战。监督序列标记的过程依赖于注释序列的质量。最近,Rembeza 团队分析了 BRENDA 数据库,发现 EC 1.1.3.15 酶类中近 78% 的序列被错误注释,所有序列中约有 18% 被归类为与类代表几乎没有相似之处的酶类。此外,注释是一个相当耗时的过程:广泛使用的蛋白质家族数据库 Pfam 在过去五年中增长了不到 5%,并且至少有三分之一的微生物蛋白质没有通过与功能特征序列的比对进行注释。然而,最近在序列注释方面的工作可能会为更快的自动化注释过程打开一扇新的大门。Bileschi 团队最近使用神经网络来预测功能注释,将 Pfam 数据库扩展了 >9.5%。尽管这可能是一个漫长且具有挑战性的过程,但朝这个方向的努力可能会导致在可预见的未来对大部分蛋白质空间进行注释,从而促进条件 Transformers 的实施。酶、受体和生物传感器设计2018 年,IBM Research 发布了 IBM RXN for Chemistry,这是一款基于云的应用程序,将有机化学与人类语言联系起来。该应用程序托管 Molecular Transformer,该模型可以使用编码器 - 解码器架构预测化学反应最可能的结果。在这种情况下,模型编码器处理化学物质作为输入(反应物 + 试剂),而解码器输出最可能的反应产物。随后,作者反转了网络:问题不是预测可能的化学反应的结果,而是确定产生给定目标分子所需的反应物,这一过程称为逆合成。遵循类似的方法,Grechishnikova 实现了用于从头药物生成的编码器-解码器架构。在这种情况下,编码器处理蛋白质序列,而解码器生成可能与结合输入序列兼容的配体的 SMILES。这两个示例展示了基于原始 Transformers 的模型如何成为生成以输入为条件的输出的强大工具。特别是,Grechishnikova 的方法在蛋白质设计领域很有趣;通过反转翻译机,我们可能能够生成与编码器输入 SMILES 兼容的序列。这样的模型可能对受体蛋白的工程有巨大的应用,包括预测识别和结合特定配体的序列,这是受体和生物传感器设计向前迈出的一大步。鉴于 IBM 最近对化学反应的向量表示进行编码的方法,我们可以设想另一种模型,该模型将化学反应作为输入并产生蛋白质序列作为输出。这样的模型将为酶设计提供创新途径,包括能够催化自然界中未发现的反应的工程酶。这种方法可能支持生物学策略,例如,扭转环境污染。可解释的蛋白质设计设计具有可定制特性的蛋白质是生物化学的长期目标。在更基本的层面上,人们也有兴趣了解将序列与蛋白质结构相关联的原理,这将使漏斗形蛋白质折叠能量图谱的合理设计成为可能。出于这个原因,人们越来越有兴趣以人类思维可以理解的方式,为深度学习模型的基础数学工作提供解释。可解释的人工智能(XAI)将帮助我们理解为什么模型会达到特定的答案,并引导科学家找到新的想法和方法。药物发现领域的研究已经受益于 XAI 技术的应用,例如,识别驱动分子活性的配体药效团。传统上,最广泛使用的 NLP 技术,例如 HMM 或 SVM,本质上是可以解释的,因此被称为「白盒」。最近深度学习方法在 NLP 任务中达到高性能的爆炸式增长,带来了开发新技术来解释这些模型的挑战。「黑盒」模型的 XAI 技术取得了实质性进展,其中五种主要技术是特征重要性、代理模型、示例驱动、基于起源和声明性归纳。对于 Transformer 的特殊情况,在整个架构中使用注意力机制为解释其内部表示提供了优势。注意机制本身对应于输入特征的重要性分数,这允许将原始分数可视化为显着性热图。上图举例说明了一个句子的自注意力,其中一个特定的注意力层在单词「it」和其他单词之间赋予了几个注意力分数。以类似的方式,蛋白质序列将对应于氨基酸之间注意力分数的表示。最近,已经努力将 Transformers 的 XAI 带入用户友好的界面。例如,exBERT(https://exbert.net)可以可视化在任何语料库上训练的任何 Transformers 的内部表示。可以为所有不同的注意力层可视化自注意力用户定义的句子,选择特定的单词并可视化每一层的网络词性预测,或者在训练语料库中搜索它们以显示最高相似度匹配。将 exBERT 改编为受过蛋白质训练的 Transformers 将能够交互式可视化蛋白质中氨基酸之间的关系,并且类似于 POS 标签,它们的预测特性。同样,在训练语料库中搜索蛋白质片段并找到最高相似度的匹配可以阐明蛋白质之间的新关系。尽管该领域仍处于起步阶段,但可视化 Transformers 内部工作的可能性可能会为更好地了解蛋白质折叠和设计带来巨大机会。蛋白质设计的未来掌握在大公司手中吗?近年来发布的 Transformers 模型的格局由大公司主导。使用 1750 亿个参数训练 GPT-3(迄今为止的第二大模型)估计花费了 1200 万美元,并且需要超过 10,000 天的 GPU 时间。其他模型已经通过访问大量 TPU 资源进行了训练。训练这样的深度学习模型可能是 OpenAI 或 Google 等大公司可以使用的商品,但可能超出了初创企业和许多学术研究团体的范围。它们的经济可及性是一个问题,与训练此类 AI 模型相关的碳足迹正引起越来越多的关注。尽管人们越来越意识到这些与人工智能相关的可能问题,但事实是,随着规模的增加,模型的性能会大大提高,而且最可预测的是,模型规模只会继续增长:今年,最大人工智能训练运行中使用的计算量以 3.4 个月的倍增速度呈指数级增长。这对蛋白质研究和学术团体产生了明显的影响。迄今为止发布的 9 个基于蛋白质的 Transformers 模型中有 7 个对应于由大公司领导或包括大公司在内的研究。尽管这对于学术团体和这个快速发展的领域的整体未来来说可能听起来令人不安,但这并不一定会造成不平衡。首先,大型 Transformer 模型的优点是只需要训练一次,然后可以用于各种下游任务,这表明研究社区在公开发布后仍然会受益。这方面的例子包括 AlphaFold 和 ProtTrans,但不幸的是,并不总是提供公开发布。此外,尽管基于蛋白质的已发表 Transformers 与大公司的努力有关,但在所有情况下,它们都涉及与学术团体的合作,这种趋势如果在未来得到扩展,可能会给学术界带来新的机会,并创建一个更具协作性的研究社区,随着科学,最终社会,受益于大公司带来的融资机会。最后,虽然大型语言模型往往表现更好,但也有人努力用更少的计算资源实现性能相同的模型,例如 DistilBERT,它保留了 BERT 97% 的性能,同时将其大小减少了 40%,以及 Switch,这表明与 T5 相比,预训练速度(使用相同的计算资源)提高了 7 倍。最后这些例子让人想起了长时间尺度分子动力学的分析,最初只有像 ANTON 这样拥有昂贵专业硬件的公司才能使用,但很快,通过使用内部 GPU 集群和优雅的算法解决方案,整个研究社区都可以使用。从这个意义上说,再次强调人类语言和蛋白质序列之间的差异很重要。尽管直接重新应用 NLP 语言模型已经显示出巨大的成功,但根据蛋白质的特定属性定制模型,例如由于它们必须形成 3D 结构而产生的偏差,可能会在降低计算成本的同时提高性能。这个方向的一个例子是 MSA Transformer,它在整个 MSA 上使用行和列注意力,并将只需要 1 亿个参数的 MSA 作为输入,以提供与六倍于其大小的 Transformers 相似的性能。另一个例子是 AlphaFold 2,它引入了三角形自注意力块,可以更好地利用序列和 3D 结构之间的关系。尽管训练这些方法的成本仍然很高,但他们强调,根据蛋白质序列的特定特性对 NLP 模型进行进一步的工程改造可能会提供具有卓越性能的经济实惠的模型。结论NLP 领域的最新发展及其在蛋白质序列中的潜在应用为蛋白质研究和可定制蛋白质的设计打开了令人兴奋的新大门。基于 Transformer 的语言模型已经服务于各种任务,包括翻译自然语言,甚至编写代码来训练机器学习模型。此外,这些新模型能够生成与人类非常相似的文本,以至于从一开始,它们就一直被争议所包围,由于担心假新闻或不道德的医疗建议形式的潜在滥用,它们通常不会被发布。作者设想了六种直接应用,将当前的 NLP 方法转移到蛋白质研究领域,如前所述。根据当前 NLP transformers对蛋白质序列的适用程度排序,我们可以(1)在蛋白质空间的未观察区域生成序列,(2)微调天然蛋白质家族的序列以扩展其库,(3)利用它们编码的向量表示作为蛋白质工程任务的其他下游模型的输入,(4)生成具有特定功能特性的条件序列,(5)使用 encoder–decoder transformers 设计全新的和目的驱动的受体和酶,(6)更全面地了解序列-结构-功能关系,包括通过解释这些语言模型来控制蛋白质折叠的规则。毫无疑问,这些进步并非没有挑战,模型的大小和功能注释的困难是最值得注意的两个。此外,正如早期研究中所指出的,基准对于比较模型性能至关重要,这在序列生成的情况下尤其具有挑战性。迄今为止,大多数生成模型都在其二级结构内容、球形或与自然序列的相似性的背景下进行了评估。然而,对生成的序列的正确评估最终将需要实施高通量实验表征。正如在以前的工作中所做的那样,对这些序列的可表达性进行评估将是必不可少的。另外,最终评估这些序列的相关功能(例如它们的催化活性)是否超越当前的蛋白质工程策略(可能在实验反馈改进模型的迭代轮次)中至关重要。尽管存在这些困难,我们相信基于 Transformers 的蛋白质语言模型将彻底改变蛋白质设计领域,并为许多当前和未来的社会挑战提供新的解决方案。作者希望这里的想法能够触及人工智能和生物化学界,并鼓励将 NLP 方法应用于蛋白质研究。论文链接:https://www.nature.com/articles/s42256-022-00499-z