一天之内,两大AI预测蛋白结构算法开源,分别登上Nature、Science

简介: 这是科学激动人心的新一步。我们将直播解读这两研究,详见文后。

使用 氨基酸 序列预测蛋白质形状的 AphaFold2,终于开源了。


众所周知,蛋白质是生命活动的基本组件,它们可以单独存在,也会协同工作。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很难,甚至根本不可能破译。


科学家们一直在梦想通过基因序列简单地预测蛋白质形状——如果能够成功,这将开启一个洞察生命运作机理的新世界。然而近五十年来,人们的进展缓慢。


7 月 15 日,《自然》杂志一篇论文被接收的消息引发了人们的关注,谷歌旗下人工智能公司 DeepMind 在研究《Highly accurate protein structure prediction with AlphaFold》中宣布,人们首次发现了一种通过计算来预测蛋白质结构的方法。即使在不知道相似结构的情况下,AI 也可以在原子层面上精确预测蛋白质结构。也就是说,之前备受关注的 AlphaFold2 终于开源了。


image.png


无独有偶,作为相当热门的研究领域,Science 同样在今天发表了一篇论文,介绍并开源了一个可媲美 AlphaFold2 的新工具 RoseTTAFold。


所以说,赛马了,感兴趣的同学可以自由选择。


AlphaFold2 开源,原子精度预测蛋白质结构


2020 年 12 月的国际蛋白质结构预测竞赛 CASP ,一项重磅成果引发了科技界所有人的关注:由 DeepMind 开发的 AlphaFold 2 击败一众选手,在准确性方面达到比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。


image.png

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 结构。2020,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。它能以就计算机方法而言前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。


这破解了出现五十年之久的蛋白质分子折叠问题,同时证明了 AI 对于科学发现,尤其是基础科学研究的影响。


科学家们纷纷表示,这项突破极具意义。Alphafold 的突破性研究成果将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。


因此,这段时间以来,科研圈也在等待 AlphaFold 2 的技术细节。


不久之前,Demis Hassabis 就曾在 Twitter 上表示 DeepMind 将开源 AlphaFold2,如今终于兑现承诺。


7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 杂志上发表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并开源了 AlphaFold2,它预测的蛋白质结构能达到原子水平的准确度。


image.png



在文章中,DeepMind 表示 AlphaFold 可以周期性的以原子精度预测蛋白质结构。在技术上,AlphaFold 利用多序列对齐,进行深度学习算法的设计,还结合了关于蛋白质结构的物理和生物学知识提升效果。


作为通讯作者之一,Demis Hassabis 在一段声明中写到,「去年在 CASP14 大会上我们揭晓了一个可以将蛋白质 3D 结构预测精确到原子水平的全新 AlphaFold 系统,此后我们承诺会分享我们的方法,并为科学共同体提供广泛、免费的获取途径。今天我们迈出了承诺的第一步,在《自然》期刊上分享 AlphaFold 的开源代码,并发表了系统的完整方法论,详尽细致说明 AlphaFold 是如何做到精确预测蛋白质 3D 结构的。作为一家致力于推动科学进步的公司,我们期待看到我们的方法将为科学界启发出什么其他新的研究方法,也期待很快能和大家分享更多我们的新进展。」


AlphaFlod 首次参加 CASP 就在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。AlphaFold 专注于从头开始建模目标形状,且并不使用先前已经解析的蛋白质作为模板。在大多数情况下,AlphaFold 的准确性与实验相媲美,大大优于其他方法。


image.png

图 1:AlphaFold 产出高准确度的架构。


AlphaFold 网络直接预测给定蛋白质的所有重原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入 (如图 1e)。


AlphaFold 网络由两个主要部分组成。首先,网络的主干通过一个称为 Evoformer 的新神经网络块的重复层来处理输入,产生一个 Nseq × Nres 阵列 (Nseq: 序列数,Nres: 残差数) ,它表示一个处理过的 MSA 和一个表示剩余对的 Nres × Nres 阵列。Evoformer 块包含许多新颖的基于注意力和非基于注意力的成分,它的关键创新是与 MSA 交换信息的新机制,并能直接推理空间和进化关系的配对表征。


网络的主干之后是结构模块(Structure Module),该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的 3-D 结构。这些表征在微不足道的状态下初始化,所有旋转设置为同一性(identity),所有位置设置为原点,但能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这部分网络的关键创新包括打破链原子结构,允许同时局部细化结构的所有部分,一个新的「equivariant transformer」允许网络隐式地推理未表示的侧链原子,以及损失项可对残基方向的正确性赋予重要权重。


image.png

图 3:架构细节


image.png

图 4:解释神经网络


更多细节大家可以查看 Nature 原文与 DeepMind 提供的补充材料。


最后提一句,也不知是何原因,该论文未经编辑就出版了(5 月接收、7 月发表),难道是知道今天 Science 也将发表论文介绍一个可与 AlphaFold2 相匹配的研究?也就是下面这一篇。


华盛顿大学等开发媲美 AlphaFold2 的新工具 RoseTTAFold

DeepMind 在 2020 年的 CASP14 会议上展示了其在该领域的显著成果AlphaFold2,当时该技术在预测蛋白质方面取得了排名第一的准确率。


华盛顿大学医学院蛋白质设计研究所(Institute for Protein Design)的研究者们很大程度上重现了 DeepMind 在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低


这项研究已经在 Science 上发表。


image.png


论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754


华盛顿大学医学院团队也向社区开源了该工具,来自世界各地的科学家都可以使用它来构建蛋白质模型,加速自己的研究。在上传至 GitHub 后不久,该工具就已被 140 多个独立研究团队下载。


image.png


项目地址 https://github.com/RosettaCommons/RoseTTAFold


具体地,在这项研究中,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导的计算生物学家团队开发了一款叫做「RoseTTAFold」的软件工具,该工具利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构,原本这一工作需要数年的实验室研究。


从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。


下图 A 为具有 1D、2D 和 3D 注意力轨迹(attention track)的 RoseTTAFold 架构;B 为 CASP14 目标上蛋白质预测方法的平均 TM-score;C 为 CAMEO 中介(medium)和硬(hard)目标的盲基准测试结果。


image.png

RoseTTAFold 方法的准确率比目前可用的方法高得多,因而研究者想要测试是否可以利用它解决以前未解决且具有挑战性的 MR 问题,并改进临界个案的解决方案。四个最近的晶体数据集,包括牛属甘氨酸 N - 酰基转移酶(GLYAT)、细菌氧化还原酶以及细菌表面层蛋白(SLP)(下图 A)和来自真菌平革菌属金孢子菌属的分泌蛋白(下图 B),基于 PDB 蛋白质数据库中可用的模型无法利用 MR 解决,因此研究者使用 RoseTTAFold 模型进行了重新分析:


image.png


另一方面,RoseTTAFold 能够利用一台游戏计算机在短短 10 分钟内计算出蛋白质结构。研究者使用 RoseTTAFold 计算出了数百种新的蛋白质结构,其中包括许多人类基因组中认知甚少的蛋白质。此外,他们还生成了与人类健康直接相关的一些蛋白质结构,包括与有问题的脂质代谢、炎症和癌细胞生长相关的蛋白质。他们还表明,RoseTTAFold 可以用于建立复杂生物的模型,所需时间只是以前所需时间的一小部分。


下图为使用 RoseTTAFold 的蛋白质预测流程。其中,A 和 B 是从序列信息中预测大肠杆菌蛋白复合物的结构;C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 复合结构符合以前发表的低温电子显微镜(cryo-EM)密度(EMD-21645)。


image.png



论文一作、华盛顿大学博士后研究员 Minkyung Baek 表示:「我们希望这个新工具将造福整个研究领域。」


参考链接:https://newsroom.uw.edu/news/accurate-protein-structure-prediction-now-accessible-all

https://www.nature.com/articles/s41586-021-03819-2

相关文章
|
1月前
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
186 58
|
1月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
165 60
|
4天前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
13 3
|
24天前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
89 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
12天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
11天前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
25 4
|
11天前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
25 3
|
19天前
|
机器学习/深度学习 人工智能
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【9月更文挑战第1天】麻省理工学院(MIT)研究人员开发的深度学习AI模型,在乳腺癌早期预警方面取得突破性进展,相比传统方法提前5年预警癌症,准确率超过90%。此成果不仅在医学界引起轰动,还获得了人工智能领域知名学者Yann LeCun的高度评价。尽管面临准确性和可解释性的挑战,但该研究展示了AI在医疗领域的巨大潜力,有望革新乳腺癌的早期筛查和诊断方式。论文详情见[链接]。
22 3
|
23天前
|
算法 数据处理 数据安全/隐私保护
|
29天前
|
存储 人工智能 算法
AI算法的道德与社会影响:探索技术双刃剑的边界
【8月更文挑战第22天】AI算法作为一把双刃剑,在推动社会进步的同时,也带来了诸多道德与社会挑战。面对这些挑战,我们需要以开放的心态、严谨的态度和创新的思维,不断探索技术发展与伦理规范之间的平衡之道,共同构建一个更加美好、更加公正的AI未来。