多模态学习加持，蛋白质预训练模型S2F准确预测PPI-阿里云开发者社区

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

2023-05-12 354

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多模态学习加持，蛋白质预训练模型S2F准确预测PPI

蛋白质-蛋白质相互作用（PPI）在许多生物过程中都有着重要作用。在这些过程中，两个或多个蛋白质物理地结合在一起以实现其功能。建立准确的 PPI 预测模型在许多生物医学应用中都有十分重要的意义，例如疫苗设计、大分子以及多肽类药物发现等问题中都涉及蛋白质相互作用。预训练蛋白质模型来学习有效的表征对预测 PPI 来说至关重要，目前大多数的蛋白预训练模型是基于序列的，采用自然语言处理中使用的语言模型来处理氨基酸序列。PPI 问题和蛋白的结构与功能密切相关。然而，单独使用蛋白质序列很难描述蛋白质的结构和功能。这从蛋白质折叠这个问题的难度就可以看出，即使 DeepMind 提出的 AlphaFold 也需要借助多序列比对（MSA）的信息才能取得比较好的结果。

为了解决这个问题，百度借鉴自然语言处理和计算机视觉中的多模态学习，提出了一个包含三个模态：序列（Sequence）、结构（Structure）和功能（Function）的蛋白质多模态预训练模型 S2F。他们使用重原子点云的拓扑复合物来编码结构特征，这使得模型不仅可以学习骨架的结构信息，还可以学习侧链的结构信息。此外，此模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。

实验表明，S2F 学习的蛋白质嵌入在各种 PPI 任务中取得了良好的表现，包括跨物种 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测以及突变驱动的蛋白结合亲和力变化预测。

该工作即将在 PaddleHelix 开源，供大家使用。

项目链接：https://github.com/PaddlePaddle/PaddleHelix。
论文链接：https://arxiv.org/abs/2112.04814

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书