Nature子刊:AI算法破解癌细胞基因特征,准确率可达99%!

简介: Nature子刊:AI算法破解癌细胞基因特征,准确率可达99%!
【新智元导读】近日,一项由MDC生物信息学家Altuna Akalin团队开发的机器学习算法「Ikarus」破解了癌细胞的基因特征,准确率最高可达99%。


AI又立功了。

 

这次一项新的AI机器学习算法「Ikarus」,可破解癌细胞和正常细胞的基因特征差别。

 

这项研究由MDC生物信息学家Altuna Akalin团队完成,并发表在Nature子刊「Genome Biology」上。

 

论文地址:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02683-1#Sec8

 

此外,负责本次研究的机构MDC(Max Delbrück center)还是德国四大研究机构之一的亥姆霍兹联合会的16个研究中心之一。

 

 

既然这么大来头,那这份研究为啥重磅?

 

从浩如烟海的数据集里筛选出一种「共通的特征」,人类肯定比不上AI。

 

而要将癌细胞和正常细胞区分开来,就需要筛选出它们之间的共通特征。

 

这次MDC的研究团队开发的Ikarus发现了肿瘤细胞中的共通模式(Pattern),它由一系列基因组特征组成,并且常见于各种类型的癌症。

 

此外,算法还检测到了从未和癌症挂钩的基因种类。

 

于是研究团队提出了一个简单的问题:

是否有可能制作一个分类器,将肿瘤细胞与多种癌症类型的正常细胞正确区分开来?

 

于是就有了Ikarus的诞生。它包括两个步骤:

1、通过整合多个经过专业注释的单细胞数据集,以基因集的形式发现全面的肿瘤细胞特征;


2、训练稳健的逻辑回归分类器以严格区分肿瘤和正常细胞,然后使用定制的细胞-细胞网络进行细胞标签的基于网络的传播。

 

团队负责人Altuna Akalin说:

为开发一种强大、灵敏和可重复的计算机肿瘤细胞分选仪,我们已经在使用不同测序技术获得的各种癌症类型的多个单细胞数据集上测试了Ikarus,以确定它适用于不同实验环境。

 

 

惊人的成功率

该论文的第一作者Jan Dohmen表示,在专家已经清楚地区分健康细胞和癌细胞的情况下,获得合适的训练数据是一项重大挑战。

 

单细胞测序数据集通常很冗杂。

 

这意味着它们包含的关于单个细胞分子特征的信息不是很精确,因为在每个细胞中检测到不同数量的基因,或者因为样本的处理方式并不总是相同。

 

Dohmen和该研究的联合负责人Vedran Franke博士说,

我们筛选了无数出版物并联系了相当多的研究小组,以获得足够的数据集。团队最终选择来自肺癌和结直肠癌细胞的数据来训练算法,然后再将其应用于其他类型肿瘤的数据集。

 

在训练阶段,Ikarus必须找到一个「特征基因列表」,然后将其用于对细胞进行分类。

 

 

我们尝试并改进了各种方法,Ikarus最终使用两个列表:一个用于癌症基因,另一个用于来自其他细胞的基因,弗兰克解释道。

 

经过训练之后,该算法就能够区分其他类型癌症中的健康细胞和肿瘤细胞,例如来自肝癌或神经母细胞瘤患者的组织样本。

 

而在其他样本中的结果令人雀跃,成功率出奇地高,最高可达99%。

 

 

「我们没想到会有一个共同的特征可以如此精确地定义不同类型癌症的肿瘤细胞」,Akalin说。

 

「但我们仍然不能说这种方法是否适用于所有类型的癌症」,Dohmen补充道。

 

不只是癌细胞区分


为了将Ikarus变成一种可靠的癌症诊断工具,研究人员现在希望在其他类型的肿瘤上对其进行测试。

 

在最初的测试中,Ikarus已证明该方法还可以将其他类型(和某些亚型)的细胞与肿瘤细胞区分开来,不仅限于肿瘤细胞检测

 

 

它可用于检测任何细胞状态,例如细胞类型,唯一的要求是细胞状态至少存在于两个独立的实验中。

 

Akalin说:

我们希望使这种方法更加全面,进一步发展它,以便它可以区分活检中所有可能的细胞类型。

 

在空间测序数据集上应用自动肿瘤分类可以直接注释组织学样本,从而促进自动化数字病理学。

 

在医院,病理学家往往只在显微镜下检查肿瘤的组织样本,以识别各种细胞类型。这是一项费时费力的工作。

 

 

有了Ikarus,这一步骤有朝一日可能成为一个完全自动化的过程。

 

此外,Akalin指出,这些数据可用于得出有关肿瘤直接环境的结论。这可以帮助医生选择最好的疗法。对于癌组织和微环境的构成,通常表明某种治疗或药物是否有效。

 

此外,人工智能也可能有助于开发新的药物。

 

「Ikarus让我们能够识别出可能导致癌症的基因,然后可以使用新的治疗剂来靶向这些分子结构」Akalin说。

相关文章
|
数据采集 存储 数据处理
使用Python爬取豆瓣电影影评:从数据收集到情感分析
本文演示如何使用Python爬虫获取豆瓣电影《肖申克的救赎》的影评数据并进行情感分析。首先,安装requests、BeautifulSoup、pandas和TextBlob库。接着,编写爬虫抓取评论的用户名、评分和内容,存储为DataFrame。然后,利用TextBlob进行情感分析,得到情感分数。此方法有助于分析用户对电影的反馈。
|
4天前
|
数据采集 人工智能 安全
|
13天前
|
云安全 监控 安全
|
5天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1091 152
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1763 9
|
10天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
697 152
|
12天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
662 13
|
6天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
452 5