DNA 预测进入新时代!DeepMind 发布新模型Enformer,一次可编码20万个碱基对

简介: DNA 存在大量的片段,破译信息是一个费时费力的工作,能否用AI 的力量来解决这个问题?DeepMind最近发布了一个新模型Enformer,能够一次编码超过20万个碱基对来进行预测,超过以往方法的5倍,准确率大大提升。

DNA 一直是生物中最神秘的存在,为了测量DNA 序列,1988年美国国家科学院的一个特别委员提出人类基因组计划(Human Genome Projec, HGP),它是一项规模高,跨国跨学科的科学探索巨型工程。 其宗旨在于测定组成人类染色体(指单倍体)中所包含的六十亿对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。 

30.jpg截至2005年,人类基因组计划的测序工作已经基本完成(92%)。2020年突破性技术进展就包括,针对不同人的基因研发的个性化药物、根据基因研发的抗衰老药物等,可以说生物技术的发展离不开基因测序。 国际研究界也对更好地了解影响人类健康和发展的遗传指令的机会感到兴奋。DNA 携带决定一切的遗传信息,从眼睛颜色到对某些疾病的易感性。人体中大约 20,000 个称为基因的 DNA 部分包含有关蛋白质氨基酸序列的说明,这些蛋白质在我们的细胞中执行许多基本功能。 然而,这些基因只占基因组的不到 2%。剩余的碱基对占基因组 30 亿个“字母”中的 98%,被称为非编码(non-coding),包含关于基因应该在人体中何时何地产生或表达的不太容易理解的说明。 DeepMind 始终相信人工智能可以更深入地了解此类复杂领域,可以加速科学进步并为人类健康带来潜在益处,最近他们发表了一篇论文,引入一种称为 Enformer 的神经网络架构,该架构大大提高了从 DNA 序列预测基因表达的准确性。 31.jpg 为了进一步研究疾病中的基因调控和因果因素,DeepMind 还公开提供了模型及其对常见遗传变异的初步预测。32.jpg以前关于基因表达的工作通常使用卷积神经网络作为基本构建块,但它们在模拟远端增强子对基因表达的影响方面的局限性阻碍了它们的准确性和应用。 最初的基因探索依赖于 Basenji2,它可以从 40,000 个碱基对的相对较长的 DNA 序列中预测调节活性。受这项工作的启发,以及调控 DNA 元件可以影响更远距离表达的知识,可以改变基本的模型架构改变来捕获长序列。 DeepMind 开发了一种基于 Transformers 的新模型,Transformer在自然语言处理中很常见,可以利用可以整合更多 DNA 上下文的自我注意机制。 由于 Transformers 是查看长文本段落的理想选择,因此DeepMind 对它们进行了改造,以读取大量扩展的 DNA 序列。 通过有效地处理序列,新模型能够比先前方法编码长度超过 5 倍(即 200,000 个碱基对)的距离的相互作用,并且模型架构可以模拟称为增强子(enhancer)的重要调控元件对 DNA 序列中更远距离的基因表达的影响。 33.jpgEnformer 被训练来预测功能基因组数据,包括来自输入 DNA 的 200,000 个碱基对的基因表达。上面的示例包含 5,000 多个可能的基因组轨迹中的三个。通过使用使用注意力收集整个序列的信息的Transformer 模块,与以前的模型相比,能够更有效地考虑更长的输入序列。 为了更好地理解 Enformer 如何解释 DNA 序列以得出更准确的预测,研究人员使用贡献分数来突出输入序列的哪些部分对预测影响最大。与生物学直觉相匹配,可以观察到,即使位于距离基因超过 50,000 个碱基对的位置,该模型也会关注增强子。 预测哪些增强子调节哪些基因仍然是基因组学中尚未解决的主要问题,因此目前来看 Enformer 的贡献分数只能与专门为此任务开发的现有方法(使用实验数据作为输入)相当。 Enformer 还学习到了绝缘体元件(insulator elements),它将 DNA 的两个独立调节区域分开。 34.jpg虽然现在可以完整地研究生物体的 DNA,但需要复杂的实验来了解基因组。尽管进行了巨大的实验努力,但绝大多数 DNA 对基因表达的控制仍然是个谜。 借助人工智能,研究人员可以探索在基因组中寻找模式的新可能性,并提供有关序列变化的机械假设。与拼写检查器类似,Enformer 部分理解 DNA 序列的词汇,因此可以突出显示可能导致基因表达改变的编辑。 这种新模型的主要应用是预测 DNA 字母的哪些变化(也称为遗传变异)会改变基因的表达。 与之前的模型相比,Enformer 在预测变异对基因表达的影响方面要准确得多,无论是在自然遗传变异的情况下,还是在改变重要调控序列的合成变异的情况下。 此属性可用于解释通过全基因组关联研究获得的越来越多的疾病相关变异。与复杂遗传疾病相关的变异主要位于基因组的非编码区域,可能通过改变基因表达导致疾病。 但由于变异之间的内在相关性,许多这些与疾病相关的变异只是假相关而不是因果关系。计算工具现在可以帮助区分真正的关联和误报。35.jpg上图显示了位于免疫反应基因 NLRC5 中的变体 rs11644125 与较低水平的单核细胞和淋巴细胞白细胞有关。 通过系统地突变围绕变体的每个位置并预测 NLRC5 基因表达的结果变化(显示为字母高度),可以观察到该变体导致 NLRC5 的整体表达降低并调节称为 SP1 的转录因子的已知结合基序。 因此,Enformer 的预测表明,由于 SP1 结合受到干扰,该变体对白细胞计数的影响背后的生物学机制是降低 NLRC5 基因表达。 当然这项工作远未解决人类基因组中存在的无法解释的难题,但 Enformer 是在理解基因组序列复杂性方面向前迈出的一步。 如果读者有兴趣使用 AI 来探索基本细胞过程的工作原理、它们如何在 DNA 序列中编码,以及如何构建新系统来推进基因组学和对疾病的理解,DeepMind 正在招聘。 36.jpg

相关文章
|
运维 关系型数据库 数据库
卸载OceanBase数据库的OCP
卸载OceanBase数据库的OCP
803 1
|
8月前
|
JavaScript 前端开发 搜索推荐
《Astro 3.0岛屿架构让内容网站“脱胎换骨”》
Astro 3.0的岛屿架构为内容优先网站提供了高效解决方案。通过将页面大部分内容静态化,仅对交互区域加载JavaScript,大幅优化加载速度与用户体验,同时提升SEO效果。开发者可灵活选用多种UI框架,降低技术门槛,简化维护工作。实际应用中,许多网站采用该架构后性能显著提升,成本降低,用户活跃度与流量大幅增长,成为内容网站建设的革新之选。
189 15
《Astro 3.0岛屿架构让内容网站“脱胎换骨”》
|
10月前
|
人工智能 自然语言处理 数据可视化
清华大学104页PPT《DeepSeek从入门到精通》分享
清华大学发布的《DeepSeek从入门到精通》PPT共104页,系统讲解了这款由清华团队研发的开源通用人工智能工具。内容涵盖DeepSeek的功能、应用场景及优化策略,帮助用户从零开始掌握文本生成、语义分析、编程辅助等核心技能,并提供实战提示语模板和避坑指南。下载链接:[夸克网盘](https://pan.quark.cn/s/aaf63504a246)。
988 3
清华大学104页PPT《DeepSeek从入门到精通》分享
|
5月前
|
数据采集 监控 安全
拼多多API价格战预警:竞品监控不落人后!
在电商竞争激烈的当下,拼多多凭借低价策略迅速崛起,但也给商家带来定价挑战。本文解析如何利用API技术,构建实时价格预警与竞品监控系统,助力商家在价格战中抢占先机,实现智能调价与策略应对。
498 0
|
11月前
|
存储 算法 区块链
区块链:版权保护的新利器
区块链:版权保护的新利器
849 21
|
存储 开发工具 数据安全/隐私保护
「Mac畅玩鸿蒙与硬件9」鸿蒙开发环境配置篇9 - 使用Git进行版本控制
在 HarmonyOS 项目开发中,Git 版本控制可以帮助开发者规范地管理代码变更,确保协作流程顺畅。本篇将详细介绍从创建项目、提交代码到 Git 远程仓库,再到修改、推送更新的完整操作流程,重点演示如何使用 Git 和 GitHub 进行身份验证和版本管理。
622 3
「Mac畅玩鸿蒙与硬件9」鸿蒙开发环境配置篇9 - 使用Git进行版本控制
|
SQL 监控 数据可视化
DolphinScheduler教程(02)- 系统架构设计(上)
DolphinScheduler教程(02)- 系统架构设计(上)
542 0
DolphinScheduler教程(02)- 系统架构设计(上)
|
缓存 网络协议 Serverless
函数计算操作报错合集之遇到AxiosError: Network Error错误,该如何排查
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
750 1
|
监控 关系型数据库 数据库
如何优化PostgreSQL的性能?
【8月更文挑战第4天】如何优化PostgreSQL的性能?
782 7
|
存储 算法 安全
加密算法概述:分类与常见算法
加密算法概述:分类与常见算法