拿不到谷歌 DeepMind Protein AI 的代码,这家实验室自己写一个模型

简介:   凌晨1点半,朦胧中电话铃狂响,某Exadata严重故障…….  离上一篇文章(5小时数据蒸发||24小时服务降级,Salesforce的遭遇只是个案?)不远,我们又遇到了一次又一次数据救援工作。跟Salesforce巧合的是,大家都是运行在Exadata上,不幸的是Salesforce丢失了4个小时数据(后续没看到新闻稿,是否又追回了部分)业务停顿,那我今天遇到的要麻烦更多。  近期Exadata故障比较多,比较重要的是硬件生命周期所致,X2从2010年9月开始发布上线,到现在已经将近6年,就算传统“高端”小型机也到该下线的时候了。提醒使用Exadata的朋友们做好备份,否则,你可

  这家谷歌子公司解决了生物学研究中的一项基本问题,但没有及时分享其解决方案。所以华盛顿大学的一个团队试图重建它。

  对于研究蛋白质结构的生物学家来说,他们的研究领域最近的历史可以分为两个时期:在CASP14(第 14 届蛋白质结构批判性评估会议,该会议两年举办一次)之前,以及那次会议之后。

  在此之前的几十年中,科学家们经过一年又一年的努力,一点点探索根据蛋白质所包含的氨基酸序列预测蛋白质结构这个问题的解决方案。在 2021 年 12 月的 CASP14 之后,谷歌子公司 DeepMind 的研究人员成功攻克了这个问题。

  作为一家专注于深度学习(人工智能技术的一个分支)的研究公司,DeepMind 此前曾因构建击败围棋世界冠军的人工智能系统而登上媒体头条。如今它使用一个名为 AlphaFold2 的神经网络在蛋白质结构预测领域取得了成功,这标志着它首次建立了一个可以解决真正科学问题的模型。

  如果我们能帮助科学家弄清楚蛋白质是什么样子,就可以推动对细胞内部运作机制的研究,并找出抑制特定蛋白质作用的方法,进而助力新药的研究过程。7 月 15 日,《自然》期刊发表了一篇未编辑的手稿,详细介绍了 DeepMind 模型的工作原理,且 DeepMind 公开分享了他们的代码。

  但是在这届 CASP 之后的七个月里,另一支团队接过了接力棒。6 月,也就是 DeepMind 手稿发表前一个月,由华盛顿大学蛋白质设计研究所所长 David Baker 领导的团队发布了他们自己的蛋白质结构预测模型。

  一个月来,这个名为 RoseTTAFold 的模型是其他科学家可以实际用上的最成功的蛋白质预测算法。尽管它没有达到与 AlphaFold2 同样水平的性能峰值,但该团队构建了一种工具,让研究人员无需动手编写代码即可提交氨基酸序列并获得预测结果,让那些最不擅长计算机的科学家也可以使用这个模型。

  一个月后,就在《自然》发布 DeepMind 早期手稿的同一天,《科学》期刊发表了 Baker 实验室介绍 RoseTTAFold 的论文。

  RoseTTAFold 和 AlphaFold2 都是复杂的多层神经网络。给定蛋白质的氨基酸序列,它们就能输出预测的 3D 结构。它们的设计有一些有趣的相似之处,比如一种“多轨”结构,使它们能分别分析蛋白质结构的不同方面。

  这些相似之处并非巧合——华盛顿大学团队使用 DeepMind 团队在 CASP 上的 15 分钟演讲中提到的理念设计了 RoseTTAFold——DeepMind 在那次演讲中概述了 AlphaFold2 的创新元素。但前者也因那次简短演讲后的不确定性而受到了鼓舞——当时 DeepMind 团队没有给出任何迹象,表明它会在什么时候让科学家们接触到这一前所未有的技术。

  一些研究人员担心,一家私营公司可能会违背标准的学术实践,并不会让更广泛的社区了解自己的代码。“所有人都惊呆了,媒体报道铺天盖地,然后基本上就是无线电静默了,”Baker 说。“你所处的境地如此奇妙:你的领域有了重大进展,但你不能在此基础上再接再厉。”

  Baker 和他实验室的博士后 Minkyung Baek 看到了减肥机会。他们可能没有 DeepMind 团队用来解决蛋白质结构问题的代码,但他们知道了这是可以做到的。他们也知道 DeepMind 是使用哪种方法来实现的。

  “即使在那个时候,David 也在说,‘这是一个存在证明。DeepMind 已经证明这些方法是可行的,’”马里兰大学帕克分校生物科学与生物技术研究所教授兼 CASP 活动的组织者 John Moult 说。“这对他来说已经足够了。”

  由于不知道 DeepMind 团队何时或是否会将其工具提供给希望使用它的结构生物学家,Baker 和 Baek 决定尝试构建自己的版本。

  欧洲生物信息学研究所名誉主任 Janet Thornton 说,弄清楚蛋白质的三维结构对于理解细胞的内部运作机制是至关重要的。“DNA 编码了一切信息,但它实际上并没有做任何事情,”她说。“所有工作都是由蛋白质完成的。”科学家们使用了各种实验技术来试图找出蛋白质的结构,但有时数据根本不足以提供明确的答案。

  使用蛋白质独特的氨基酸序列来预测其结构的计算机模型,可以帮助研究人员弄清楚这些令人困惑的数据到底意味着什么。在过去的 27 年里,CASP 为科学家们提供了一种系统的方法来评估他们算法的性能。

  “我们一直在前进,但速度相当缓慢,”Thornton 说。但是对于 AlphaFold2,她的评价是,“它带来的改进非常显著——实际上比我们多年来累积的进步更大。所以在这方面,这是向前跨越了一大步。”

  Baker 实验室使用自己的模型在 CASP14 上获得了第二好的性能,这为他们重现 DeepMind 的方法提供了一个坚实的起点。他们将 DeepMind 团队成员对 AlphaFold2 的评价与他们自己的方法做了系统性对比,当他们找出了 DeepMind 最重要的那些进步,就着手将它们一一构建成一个新的模型。

  他们采用的一项关键创新是多轨网络的想法。大多数神经网络模型沿着单个“轨迹”(通过网络的路径)来处理和分析数据,轨迹中有一系列模拟“神经元”的层,每一层都会转换前一层的输出并传递给下一层。这有点像传话游戏,其中每一位玩家听到上一位玩家说的单词后,就悄悄告诉下一个人——只不过在神经网络中,信息会逐渐重新排列成更有用的形式,而不是像在游戏中一样逐渐失真。

  DeepMind 设计的 AlphaFold2 将蛋白质结构信息的不同方面分成了两个独立的轨道,这两个轨道互相反馈一些信息——就像同时有两组传话游戏,两组玩家之间相邻的人们会来回传递一些信息。到了 RoseTTAFold 这里,Baker 和 Baek 发现使用三个轨道效果最好。

  “当你画一些复杂的图形时,你不会一次画完,”Baek 说。“你会从非常粗略的草图开始,逐步添加一些片段并添加一些细节。蛋白质结构预测有点像这种过程。”

  为了观察 RoseTTAFold 在现实世界中的运行情况,Baker 和 Baek 联系了一些遇到了无法解决的蛋白质结构问题的结构生物学家。一天晚上 7 点,加州大学旧金山分校的生物化学和生物物理学教授 David Agard,向他们发送了由感染特定病毒的细菌产生的蛋白质的氨基酸序列。结构预测结果在凌晨 1 点发给了教授。

  在六个小时内,RoseTTAFold 解决了困扰 Agard 两年的问题。“我们实际上可以看到它是如何从两种细菌酶的组合进化而来的,进化过程可能发生在数百万年前,”Agard 说。现在克服了这个瓶颈后,Agard 和他的实验室就可以继续研究这种蛋白质的运作机制了。

  尽管 RoseTTAFold 没有达到与 AlphaFold2 相同的性能水平,但 Baker 和 Baek 知道是时候向世界发布他们的工具了。“这显然还是非常有用的,因为这些人正在解决很多长期以来一直悬而未决的生物学问题,”Baker 说。“我们当时决定,'好吧,让科学界了解并用上这个工具会是好事一桩。'”6 月 15 日,他们发布了一款可以让任何人轻松运行他们模型的工具,以及他们即将发表的科学论文的预印版。

  与此同时,据 DeepMind 领导 AlphaFold 项目的 John Jumper 称,一篇详细介绍该系统的深度科学论文已经(在《自然》中接受审查了,当然 Baker 他们还不知道这件事。DeepMind 已于 5 月 11 日将其手稿提交给了《自然》。

  那时,科学界对 DeepMind 的时间表知之甚少。在 Baker 的预印版发布三天后,情况发生了变化。6 月 18 日,DeepMind 首席执行官 Demis Hassabis 在 Twitter 写道:“我们一直在全力完成我们的完整方法论文(目前正在审查)以及随附的开源代码,并为科学界提供对 AlphaFold 的广泛免费访问。”“很快就会有更多东西出来的!”

  7 月 15 日,就在 Baker 的 RoseTTAFold 论文发表的同一天,《自然》发布了 DeepMind 未经编辑但经过同行评审的 AlphaFold2手稿。同时,DeepMind 在 GitHub 上免费提供了 AlphaFold2 的代码。一周后,该团队发布了一个庞大的数据库,其中包含了通过他们方法预测的 350,000 个蛋白质结构。革命性的蛋白质预测工具及其大量预测结果终于走进了科学社区。

  根据 Jumper 的说法,DeepMind 的论文和代码直到 CASP 演示后七个多月才发布的原因并不特殊:“那天我们还没有准备好开源,或发布这篇具体介绍细节的论文,”他说。在 5 月份提交论文后,团队正在完成同行评审过程,Jumper 说他们试图尽快发表论文。“老实说,我们一直在尽量加快脚步,”他说。

  DeepMind 团队的手稿是通过《自然》的文章加速预审流程发表的,期刊经常使用这个流程来审查 Covid-19 论文。在给《连线》期刊的一份声明中,《自然》的一位发言人写道,这一过程旨在“为我们的作者和读者提供服务,以尽快提供特别值得注意且对时间敏感的同行评审研究成果。”

  Jumper 和 DeepMind 科学团队的负责人 Pushmeet Kohli 对于 Baker 的论文是否影响了他们在《自然》的发表时间这个话题给出了看法。“从我们的角度来看,我们在 5 月份贡献并提交了这篇论文,因此从某种意义上说,它的发表时间已经不是我们能控制的了,”Kohli 说。

  但 CASP 组织者 Moult 认为,华盛顿大学团队的工作可能帮助了 DeepMind 的科学家说服他们的母公司在更短的时间内免费提供他们的研究成果。“我了解他们——他们是非常杰出的科学家,我觉得他们应该会希望尽可能开放,”Moult 说。“内部应该会存在一些冲突,因为它是一家商业企业,它最后必须以某种方式来赚钱。”DeepMind 的母公司 Alphabet 是全球市值第四的企业。

  Hassabis 认为 AlphaFold2 的发布对科学界和 Alphabet 都是有利的。他在接受 WIRED 采访时说:“这都是开放的科学成果,我们将它提供给全人类,没有任何附加条件——系统、代码和数据库全部公开。”当被问及他们是否出于商业原因讨论过将代码保密时,他说:“这是一个很好的问题,它涉及我们交付价值的途径。价值可以通过很多不同的方式传递,对吗?商业途径显然是一种方法,但声誉也是一个重要的途径。”

  Baker 很快就赞扬了 DeepMind 团队的论文,也赞赏了他们无保留公开代码的做法。他说,从某种意义上说,RoseTTAFold 是针对 DeepMind 背离科学合作精神行事的这种可能性的一种预防措施。“如果他们没那么开明,并决定不发布代码,那么至少世界上还会有一个起点,”他说。

  话虽如此,他认为如果 DeepMind 的信息早点发布,他的团队本可以推动 AlphaFold2 表现得更好,或者让它适应设计人造蛋白质的问题——这是 Baker 实验室的主要关注点。“毫无疑问,如果比如说在 12 月初,在 CASP 刚结束之后他们就说,‘这就是我们的代码,我们就是这样做的',那么我们肯定会走得更远,”Baker 说。

  对于蛋白质结构预测的一些实际应用来说,时间可能是至关重要的。例如,了解对病原体生存至关重要的蛋白质的三维结构可以帮助科学家开发药物来对抗病原体。这些应用甚至可以用来对抗疫情;例如,DeepMind 去年 8 月使用了 AlphaFold2 的一个版本来预测一些 SARS-CoV-2 蛋白质的结构。

  Baker 认为,学术界和工业界之间需要越来越深入的信息共享。人工智能中的问题需要大量的时间和资源来解决,而像 DeepMind 这样的公司可以获得大学实验室无法想象的人员和计算能力。“几乎可以肯定的是,工业界将继续取得很多重大进展,我认为这一趋势只会加速,”Baker 说。“这些公司将面临很多内部压力,决定是像 DeepMind 那样公开这些进展,还是尝试将其商业化。”

目录
相关文章
|
7天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
65 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
13天前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
31 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
7天前
|
人工智能 文字识别 API
OpenSearch & AI 开放平台,实现0代码图片搜索!
本文主要介绍了如何利用阿里云的 OpenSearch 和 AI 搜索开放平台来构建一个无需编写代码就能完成的图片搜索功能。
59 12
|
2天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
8天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
19 5
|
13天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
24 2
|
13天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v4 与光路交换
TPU v4 是谷歌在 TPU v3 发布四年后推出的最新一代 AI 加速器,采用了 7nm 工艺,MXU 数量翻倍,内存容量和带宽显著提升。TPU v4 引入了 Sparse Core 以优化稀疏计算,首次采用了 3D Torus 互联方式,通过 Palomar 光路开关芯片减少系统延迟和功耗。TPU v4 Pod 实现了 1.126 Exaflops 的 BF16 峰值算力,展现了谷歌在大规模并行计算领域的突破。然而,TPU v4 也面临着系统成熟度低、拓扑僵硬和负载均衡问题等挑战。
34 0
|
机器学习/深度学习 人工智能 开发者
资源 | AI领域最优论文+代码查找神器:966个ML任务、8500+论文任君挑选!
查找论文及对应源码的神器 Papers With Code 刚刚推出了最新版本,可以用图形界面查找你想要的 SOTA 实现,从应用领域到具体任务再到实现代码一步到位。
|
1天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用