多模态学习加持,蛋白质预训练模型S2F准确预测PPI

简介: 多模态学习加持,蛋白质预训练模型S2F准确预测PPI

蛋白质-蛋白质相互作用(PPI)在许多生物过程中都有着重要作用。在这些过程中,两个或多个蛋白质物理地结合在一起以实现其功能。建立准确的 PPI 预测模型在许多生物医学应用中都有十分重要的意义,例如疫苗设计、大分子以及多肽类药物发现等问题中都涉及蛋白质相互作用。预训练蛋白质模型来学习有效的表征对预测 PPI 来说至关重要,目前大多数的蛋白预训练模型是基于序列的,采用自然语言处理中使用的语言模型来处理氨基酸序列。PPI 问题和蛋白的结构与功能密切相关。然而,单独使用蛋白质序列很难描述蛋白质的结构和功能。这从蛋白质折叠这个问题的难度就可以看出,即使 DeepMind 提出的 AlphaFold 也需要借助多序列比对(MSA)的信息才能取得比较好的结果。

为了解决这个问题,百度借鉴自然语言处理和计算机视觉中的多模态学习,提出了一个包含三个模态:序列(Sequence)、结构(Structure)和功能(Function)的蛋白质多模态预训练模型 S2F。他们使用重原子点云的拓扑复合物来编码结构特征,这使得模型不仅可以学习骨架的结构信息,还可以学习侧链的结构信息。此外,此模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。

实验表明,S2F 学习的蛋白质嵌入在各种 PPI 任务中取得了良好的表现,包括跨物种 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测以及突变驱动的蛋白结合亲和力变化预测。

该工作即将在 PaddleHelix 开源,供大家使用。


相关文章
|
3月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
787 109
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
339 2
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1672 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
312 120
|
4月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
868 2
|
4月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
645 23
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
699 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
876 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型