谷歌提前开源AlphaFold 2!Nature、Science同时公开两大蛋白质结构预测工具(一)

简介: 昨日,DeepMind和华盛顿大学分别在nature和Science两大顶级杂志发布了各自预测蛋白质结构的工具,并同时开源了代码。

nature和Science两本杂志一直相爱相杀,总是喜欢争着发表科学领域中的重大发现、重要突破,抢夺大师文章的发表版权。

 

这次也不例外。


7月15日,DeepMind在Nature上发表了一篇论文,开源了其基于深度学习神经网络的AlphaFold 2模型。

 30.jpg论文链接:https://www.nature.com/articles/s41586-021-03819-2

开源代码:https://github.com/deepmind/alphafold

 

与此同时,在隔壁的Science上,华盛顿大学也发表了自己开发的蛋白质预测工具RoseTTAFold。RoseTTAFold不仅性能上和AlphaFold 2相当,预测蛋白质结构也「快、狠、准」。

31.jpg论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

开源代码:https://github.com/RosettaCommons/RoseTTAFold

 

当然,RoseTTAFold最厉害的一点在于,其端到端版本在RTX2080上生成少于400个残基的蛋白质的骨干坐标只需要10分钟。


这显然让成千上万的生物学家松了一口气,毕竟一个2080还是能买得到的。


随着RoseTTAFold和AlphaFold 2的代码开源,有研究人员希望能在备受关注的两个领域方面取得新的进展:

  1. 预测多个相互作用的蛋白质的复合体结构;
  2. 新型蛋白质的设计。

 论文的其中一位作者表示,很高兴自己能够为这个巨大的里程碑做出贡献。32.jpg

DeepMind的创始人兼CEO表示,很期待开源代码之后能给更多研究带来的可能性。

33.jpg34.png

Facebook AI的田渊栋则从AI的角度发表了对AlphaFold的看法: 

蛋白质预测


蛋白质是生命的物质基础,是构成细胞的基本有机物,也是生命活动的主要承担者。 蛋白质由氨基酸通过「脱水缩合」的方式组成多肽链,经过盘曲折叠,形成具有一定空间结构的物质。 不同空间结构也就决定了蛋白质的不同功能。



一直以来,「蛋白质折叠问题」都是生物学中的一个巨大挑战。如果用暴力计算法列举出一个典型蛋白质的所有可能构型,所需的时间可能比已知的宇宙年龄还要长。 生物医学领域为了探索蛋白质复杂的3D结构,只能通过低温电子显微镜(CryoEM)、核磁共振或X射线晶体学等手段,经过大量试错才能最终确定蛋白质的结构。 理论上,一个蛋白质在确定其最终结构前,可能的折叠方式的数量是天文数字。 1969年,Cyrus Levinthal指出,通过计算列举一个典型蛋白质的所有可能构型,需要的时间比已知宇宙的年龄还要长——可能有10^300种构型。
因此,这些方法有一个巨大的缺陷:耗费大量的时间和精力。
为解决这一困难,DeepMind利用人工智能,开发了一个能够预测蛋白质结构的系统:AlphaFold。
2018年,AlphaFold在国际蛋白质结构预测竞赛(CASP)上首次亮相,获得了马克斯·普朗克发展生物学研究所(Max Planck Institute for Developmental Biology)所长、CASP评估员Andrei Lupas的高度评价:
「AlphaFold惊人的精确模型帮助我们解决一直困扰科学界的蛋白质结构问题,重新启动了学界的研究。」


image.jpeg


预测的人类白细胞介素-12蛋白与其受体结合的结构图 预测蛋白质的3D结构则有着相当重要的作用。
其能够帮助科学家发现蛋白质功能失调,以及导致某些疾病的原因,这就为药物的研发提供了一条全新的途径,从而能够快速地进行医疗治疗。 

AlphaFold 2:原子级精度


DeepMind的AlphaFold 2模型在2020年的蛋白质结构预测比赛(CASP)取得了出色的成绩。 比赛的评分中位数达到了92.4 GDT。也就是预测的均方根误差约为1.6埃,相当于一个原子的宽度(或0.1纳米)。 即使是最难的蛋白质目标,评分中位数也能达到87.0GDT。 





AlphaFold 2可以在不到10分钟的时间内预测出接近晶体结构精度的蛋白质结构。 



研究人员对AlphaFold2方法的进展进行了概括:

  1. 从多个序列排列(MSA)开始,而不是从MSA得出的反协方差矩阵等更多处理过的特征开始;

  2. 用注意力机制取代二维卷积,更好地代表沿序列远处残基之间的相互作用;
  3. 使用双轨网络结构,其中一维序列水平和二维距离图水平的信息被迭代转换并来回传递;

  4. 使用SE(3)-Transformer网络来直接完善由双轨网络生成的原子坐标(而不是像以前的方法那样的二维距离图);

  5. 端到端学习,其中所有网络参数通过反向传播从最终生成的三维坐标通过所有网络层回到输入序列来优化。

 


相关文章
|
缓存 算法 物联网
基于AODV和leach协议的自组网络平台matlab仿真,对比吞吐量,负荷,丢包率,剩余节点个数,节点消耗能量
本系统基于MATLAB 2017b,对AODV与LEACH自组网进行了升级仿真,新增运动节点路由测试,修正丢包率统计。AODV是一种按需路由协议,结合DSDV和DSR,支持动态路由。程序包含参数设置、消息收发等功能模块,通过GUI界面配置节点数量、仿真时间和路由协议等参数,并计算网络性能指标。 该代码实现了节点能量管理、簇头选举、路由发现等功能,并统计了网络性能指标。
447 73
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶中的应用####
随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术突破的关键力量之一。本文深入探讨了深度学习算法,特别是卷积神经网络(CNN)在图像识别领域的创新应用,以及这些技术如何被集成到自动驾驶汽车的视觉系统中,实现对复杂道路环境的实时感知与理解,从而提升驾驶的安全性和效率。通过分析当前技术的最前沿进展、面临的挑战及未来趋势,本文旨在为读者提供一个全面而深入的视角,理解深度学习如何塑造自动驾驶的未来。 ####
563 1
|
存储 缓存 数据库
缓存技术有哪些应用场景呢
【10月更文挑战第19天】缓存技术有哪些应用场景呢
|
存储 搜索推荐 C语言
如何理解指针作为函数参数的输入和输出特性
指针作为函数参数时,可以实现输入和输出的双重功能。通过指针传递变量的地址,函数可以修改外部变量的值,实现输出;同时,指针本身也可以作为输入,传递初始值或状态。这种方式提高了函数的灵活性和效率。
|
前端开发 JavaScript
深入理解JavaScript中的事件循环(Event Loop):从原理到实践
【10月更文挑战第12天】 深入理解JavaScript中的事件循环(Event Loop):从原理到实践
465 1
|
存储 JavaScript 前端开发
Blazor 调用 Clipboard API 读写剪贴板数据
【10月更文挑战第14天】Blazor 是一个使用 .NET 和 C# 构建交互式 Web UI 的框架。由于浏览器安全策略,直接访问某些原生 API(如 Clipboard API)受限。通过 JavaScript 互操作性(JS Interop),可在 Blazor 中调用这些 API。首先在 HTML 定义 JavaScript 函数,再通过 `IJSRuntime` 调用。此外,需注意不同浏览器对 Clipboard API 的支持程度及用户隐私授权问题。
282 2
|
存储 运维 监控
自动化运维:使用Shell脚本简化日常任务
【9月更文挑战第35天】在IT运维的日常工作中,重复性的任务往往消耗大量的时间。本文将介绍如何通过编写简单的Shell脚本来自动化这些日常任务,从而提升效率。我们将一起探索Shell脚本的基础语法,并通过实际案例展示如何应用这些知识来创建有用的自动化工具。无论你是新手还是有一定经验的运维人员,这篇文章都会为你提供新的视角和技巧,让你的工作更加轻松。
360 2
|
存储 关系型数据库 数据库
在Python中优雅地打开和操作RDS
在Python中优雅地打开和操作RDS
236 1
|
存储 安全 C语言
C语言 二级指针应用场景
本文介绍了二级指针在 C 语言中的应用,
|
存储 人机交互 语音技术
基于RT-Thread的智能家居助手
一、项目简介 智能家居助手主要基于RT-Thread开发的,该系统主要分为语音子系统,环境监测子系统,智能控制子系统,智能网关子系统,音乐播放器,云端以及应用软件七大部分。语音子系统可通过语音进行人机交互来控制家电设备。环境监测子系统为智能家居提供环境信息输入,实时监测室内的环境信息。智能控制子系统为智能家居提供控制接口,用户可根据实际需求来控制家电设备。 智能网关是整个系统的核心和枢纽,为整个智能家居提供网络,同时与云平台进行交互,不断更新室内信息,实时将数据上传至云端,用户就能在远程进行查室内的各种环境信息,实时掌握家中的最新动态。音乐播放器为用户提供音乐服务。云端部分为智能家居系统云
325 6