【Nature重磅】再创纪录!百余家实验室近150位科学家联合开发超级AI系统,精准诊断近100种脑癌

简介: 距离我们上次报道张康教授的重磅AI研究还不到一个月,来自全球100多个实验室的近150位科学家联合在顶级期刊《自然》发文,他们开发了一个超级AI系统,基于肿瘤组织DNA的甲基化数据,可以准确区分近100种不同的中枢神经系统肿瘤。

这个AI系统还能发现一些指南里面没有的新分类。这对于癌症的精准治疗而言,又是个巨大的进步。

33a2235961a65d01e0975f240b843199c93e893a

这项研究一方面能够弥补目前中枢神经系统肿瘤难以诊断的问题,一方面也是为尚不完善的中枢神经系统肿瘤分类做出了极大的贡献。

在诸多癌症中,中枢神经系统肿瘤可以说是最难搞的。目前科学家已经确定的中枢神经系统肿瘤足有100来种[2],它们的临床表现和生物学特性有高度特异性,很难确诊。由于此类肿瘤的分子标志物稀少,目前临床上中枢神经系统肿瘤的诊断核心技术还是基于显微镜的组织学诊断

不过难点在于,很多在显微镜下表现相似的肿瘤,实际上有不同的基因变异特点,这些几乎是很难观察到的,这就给精准诊断带来了极大的困难。虽然FDA已经批准了基于组织病理学切片成像辅助诊断疾病的技术[3],也有很多创业公司开始尝试利用AI分析这些病理图片,辅助医生诊断。然而上面存在的问题依然不能避免。

所以近年来WHO也逐渐在分类标准中增加了分子指标,例如几种与特定脑癌亚型相关的基因变异和甲基化情况。

Andreas von Deimling和Stefan M. Pfister领导的这个国际团队认为,分析癌症的甲基化组是个很聪明的做法,甲基化特征一方面能够标志相应的细胞变化,一方面还能够用于追踪细胞来源,例如用来诊断那些病灶不明的癌症[4]。而且前人的实验也证实了癌症甲基化数据的可靠性,即使在很小的样本中也能够得到重复[5]。现在研究者们要做的就是,在这些零散的数据基础上继续扩大,让癌症甲基化组能够成为一个统一标准的、全方位的诊断和分类工具。

不过这里面有个大问题就是,甲基化数据从哪里来。开发AI系统是需要大量的数据训练算法的,但是限于之前技术不足和高昂的成本,针对某种特定肿瘤的甲基化数据显然是严重不足的,更何况这还是个发病率不是特别高的中枢神经系统肿瘤。

感谢技术的进步。现在科学家已经可以很容易的从经福尔马林固定后石蜡包埋的少量组织(FFPE)中提取DNA,这就解决了实验材料的来源问题。尽管没有足够的肿瘤DNA甲基化数据,但是在全世界的很多实验室和医疗机构中,都保存有FFPE样本。

于是,这个庞大的研究团队开始收集FFPE样本,并用Illumina公司的主流甲基化芯片450K(可分析人体45万个甲基化位点)分析近3000份肿瘤样本的甲基化数据,几乎覆盖了目前WHO分类中全部的中枢神经系统肿瘤种类。此外,为了区分中枢神经系统肿瘤与其他肿瘤和正常脑组织之间的差异,研究团队还分析了部分间充质肿瘤、黑色素瘤、弥漫性大B细胞淋巴瘤、浆细胞瘤以及6种垂体腺瘤,以及健康脑组织的DNA甲基化情况。

b85c753014855a90552b9c0d8120e231d3095cee

决策过程

研究人员把每个样本的几十万个甲基化信息一股脑交给计算机,首先根据WHO的分类以及样本的诊断结果,在有监督的机器学习算法下,分析WHO定义的每类肿瘤的甲基化特征;然后又无监督的机器学习算法再分析一遍,让AI系统总结出自己对中枢神经系统肿瘤甲基化的认知

最后,他们得到了82个中枢神经系统肿瘤甲基化特征,以及9个对照样本的甲基化特征。这91个甲基化特征就是AI系统在WHO定义的指导下,对中枢神经系统肿瘤甲的分类。显然,AI系统对中枢神经系统肿瘤的分类,肯定不可能完全与WHO的分类完全重合。

研究人员把这82个甲基化特征分成了5类。

第一类的29个是完全与WHO的分类匹配的,就是说,AI系统认为这些甲基化特征分别属于某一类肿瘤,按照WHO的分类标准,医生之前的诊断确实也是属于这个分类。第二类也有29个,他们能与WHO分类中的某种肿瘤下面的亚类型匹配

剩下的就是只能部分匹配,或者完全不能匹配。而这些也是研究人员最感兴趣的,他们认为,这一发现可以帮助研究人员更深入的理解中枢神经系统肿瘤

24c68f768670a244031711ef1fa5b62b8fd0779b

a,91个甲基化特征,以及它们所属的5个类别;b,2801个样本的甲基化特征降维数据图

到此,中枢神经系统肿瘤的甲基化特征已经被AI系统提取,加上对照组,一共有91个。显然,如果研究就到此为止的话,使用价值还是有限的。毕竟,人工分析每个样本的甲基化类型与这91个匹配情况是件非常费时费力的事情。

于是,他们把这91个甲基化类型交给了随机森林机器学习算法,开发出一个AI决策系统,只要研究人员将从测序机器上下来的甲基化数据导入这个AI系统,就可以快速判断这个肿瘤属于哪一种

为了验证这些甲基化特征和AI决策系统的准确性。研究者选取了1104份已经组织学和分子生物学诊断的中枢神经系统肿瘤患者组织样本,同时用传统的标准组织病理学分析和这个AI系统进行诊断。

结果,在60.4%的样本上,AI系统和病理学家诊断是一致的。15.5%的样本AI系统和病理学家的也是一致的,只不过AI系统认为,它们应该属于一个更小的亚型

有12.6%的病例,AI系统和病理学家诊断的结果不一致。那到底是AI系统对,还是病理学家对?于是研究人员对这部分样本做了更加深入的分析(例如基因测序),最后惊喜的发现,92.8%的样本是AI系统对了

最后剩余的11.5%的样本,AI系统表示无能为力,不知道该如何分类,仔细分析发现,其中三分之一是罕见肿瘤,可能是前期的样本量不够,导致AI系统无法识别。因此,这部分随着数据的积累,或许可以解决。

3a08e22b3ce9252e54df6d845c2aaec8e4ed5a32

AI系统对病例的识别情况

目前该AI平台已经免费向研究机构开放[6],自2016年上线以来,已经有近万份个体DNA甲基化数据上传!实用性已经得到千余例真实病例的支持。

当然,研究者也提出,甲基化特征还不能作为单一的诊断标准,还需要临床的验证。不过作为研究的工具,它着实将使中枢神经系统肿瘤科研前进一大步。

一方面,统一的、易于使用的标准将使科研变得更加条理分明;另一方面,甲基化组明确的数据特征也便于使用计算机进行分析。有了这项技术,我们对肿瘤的分类将会更具动态并逐渐走向完善,最终带来更加精准、有针对性的治疗方案。


原文发布时间为:2018-03-19

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【Nature重磅】再创纪录!百余家实验室近150位科学家联合开发超级AI系统,精准诊断近100种脑癌

相关文章
|
4月前
|
人工智能 安全 API
20 万奖金池就位!Higress AI 网关开发挑战赛参赛指南
本次赛事共设三大赛题方向,参赛者可以任选一个方向参赛。本文是对每个赛题方向的参赛指南。
472 40
|
4月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
599 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
4月前
|
人工智能 运维 安全
加速智能体开发:从 Serverless 运行时到 Serverless AI 运行时
在云计算与人工智能深度融合的背景下,Serverless 技术作为云原生架构的集大成者,正加速向 AI 原生架构演进。阿里云函数计算(FC)率先提出并实践“Serverless AI 运行时”概念,通过技术创新与生态联动,为智能体(Agent)开发提供高效、安全、低成本的基础设施支持。本文从技术演进路径、核心能力及未来展望三方面解析 Serverless AI 的突破性价值。
|
4月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5779 78
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
659 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
4月前
|
存储 人工智能 搜索推荐
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
本文介绍基于LangGraph构建的双层记忆系统,通过短期与长期记忆协同,实现AI代理的持续学习。短期记忆管理会话内上下文,长期记忆跨会话存储用户偏好与决策,结合人机协作反馈循环,动态更新提示词,使代理具备个性化响应与行为进化能力。
830 10
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
|
4月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
4月前
|
人工智能 IDE 开发工具
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
|
4月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
500 6
|
4月前
|
人工智能 JSON 安全
Claude Code插件系统:重塑AI辅助编程的工作流
Anthropic为Claude Code推出插件系统与市场,支持斜杠命令、子代理、MCP服务器等功能模块,实现工作流自动化与团队协作标准化。开发者可封装常用工具或知识为插件,一键共享复用,构建个性化AI编程环境,推动AI助手从工具迈向生态化平台。
855 1