Nature子刊:AI算法破解癌细胞基因特征,准确率可达99%!

简介: Nature子刊:AI算法破解癌细胞基因特征,准确率可达99%!
【新智元导读】近日,一项由MDC生物信息学家Altuna Akalin团队开发的机器学习算法「Ikarus」破解了癌细胞的基因特征,准确率最高可达99%。


AI又立功了。

 

这次一项新的AI机器学习算法「Ikarus」,可破解癌细胞和正常细胞的基因特征差别。

 

这项研究由MDC生物信息学家Altuna Akalin团队完成,并发表在Nature子刊「Genome Biology」上。

 

论文地址:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02683-1#Sec8

 

此外,负责本次研究的机构MDC(Max Delbrück center)还是德国四大研究机构之一的亥姆霍兹联合会的16个研究中心之一。

 

 

既然这么大来头,那这份研究为啥重磅?

 

从浩如烟海的数据集里筛选出一种「共通的特征」,人类肯定比不上AI。

 

而要将癌细胞和正常细胞区分开来,就需要筛选出它们之间的共通特征。

 

这次MDC的研究团队开发的Ikarus发现了肿瘤细胞中的共通模式(Pattern),它由一系列基因组特征组成,并且常见于各种类型的癌症。

 

此外,算法还检测到了从未和癌症挂钩的基因种类。

 

于是研究团队提出了一个简单的问题:

是否有可能制作一个分类器,将肿瘤细胞与多种癌症类型的正常细胞正确区分开来?

 

于是就有了Ikarus的诞生。它包括两个步骤:

1、通过整合多个经过专业注释的单细胞数据集,以基因集的形式发现全面的肿瘤细胞特征;


2、训练稳健的逻辑回归分类器以严格区分肿瘤和正常细胞,然后使用定制的细胞-细胞网络进行细胞标签的基于网络的传播。

 

团队负责人Altuna Akalin说:

为开发一种强大、灵敏和可重复的计算机肿瘤细胞分选仪,我们已经在使用不同测序技术获得的各种癌症类型的多个单细胞数据集上测试了Ikarus,以确定它适用于不同实验环境。

 

 

惊人的成功率

该论文的第一作者Jan Dohmen表示,在专家已经清楚地区分健康细胞和癌细胞的情况下,获得合适的训练数据是一项重大挑战。

 

单细胞测序数据集通常很冗杂。

 

这意味着它们包含的关于单个细胞分子特征的信息不是很精确,因为在每个细胞中检测到不同数量的基因,或者因为样本的处理方式并不总是相同。

 

Dohmen和该研究的联合负责人Vedran Franke博士说,

我们筛选了无数出版物并联系了相当多的研究小组,以获得足够的数据集。团队最终选择来自肺癌和结直肠癌细胞的数据来训练算法,然后再将其应用于其他类型肿瘤的数据集。

 

在训练阶段,Ikarus必须找到一个「特征基因列表」,然后将其用于对细胞进行分类。

 

 

我们尝试并改进了各种方法,Ikarus最终使用两个列表:一个用于癌症基因,另一个用于来自其他细胞的基因,弗兰克解释道。

 

经过训练之后,该算法就能够区分其他类型癌症中的健康细胞和肿瘤细胞,例如来自肝癌或神经母细胞瘤患者的组织样本。

 

而在其他样本中的结果令人雀跃,成功率出奇地高,最高可达99%。

 

 

「我们没想到会有一个共同的特征可以如此精确地定义不同类型癌症的肿瘤细胞」,Akalin说。

 

「但我们仍然不能说这种方法是否适用于所有类型的癌症」,Dohmen补充道。

 

不只是癌细胞区分


为了将Ikarus变成一种可靠的癌症诊断工具,研究人员现在希望在其他类型的肿瘤上对其进行测试。

 

在最初的测试中,Ikarus已证明该方法还可以将其他类型(和某些亚型)的细胞与肿瘤细胞区分开来,不仅限于肿瘤细胞检测

 

 

它可用于检测任何细胞状态,例如细胞类型,唯一的要求是细胞状态至少存在于两个独立的实验中。

 

Akalin说:

我们希望使这种方法更加全面,进一步发展它,以便它可以区分活检中所有可能的细胞类型。

 

在空间测序数据集上应用自动肿瘤分类可以直接注释组织学样本,从而促进自动化数字病理学。

 

在医院,病理学家往往只在显微镜下检查肿瘤的组织样本,以识别各种细胞类型。这是一项费时费力的工作。

 

 

有了Ikarus,这一步骤有朝一日可能成为一个完全自动化的过程。

 

此外,Akalin指出,这些数据可用于得出有关肿瘤直接环境的结论。这可以帮助医生选择最好的疗法。对于癌组织和微环境的构成,通常表明某种治疗或药物是否有效。

 

此外,人工智能也可能有助于开发新的药物。

 

「Ikarus让我们能够识别出可能导致癌症的基因,然后可以使用新的治疗剂来靶向这些分子结构」Akalin说。

相关文章
|
11月前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
357 26
|
4月前
|
机器学习/深度学习 传感器 数据采集
【23年新算法】基于鱼鹰算法OOA-Transformer-BiLSTM多特征分类预测附Matlab代码 (多输入单输出)(Matlab代码实现)
【23年新算法】基于鱼鹰算法OOA-Transformer-BiLSTM多特征分类预测附Matlab代码 (多输入单输出)(Matlab代码实现)
362 0
|
7月前
|
机器学习/深度学习 存储 监控
上网管理监控软件的 Go 语言流量特征识别算法实现与优化
本文探讨基于Go语言的流量特征识别算法,用于上网管理监控软件。核心内容涵盖AC自动机算法原理、实现及优化,通过路径压缩、哈希表存储和节点合并策略提升性能。实验表明,优化后算法内存占用降低30%,匹配速度提升20%。在1000Mbps流量下,CPU利用率低于10%,内存占用约50MB,检测准确率达99.8%。未来可进一步优化高速网络处理能力和融合机器学习技术。
212 10
|
7月前
|
机器学习/深度学习 人工智能 大数据
特征越多模型越好?这个AI领域的常识可能是错的
特征选择是机器学习中的"减肥秘方",它能帮助模型去除冗余特征,提高性能并降低计算成本。本文深入浅出地介绍特征选择的概念、方法与实践技巧,带你掌握这门让AI模型更高效的"瘦身术"。
|
10月前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
896 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
672 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
314 25
|
人工智能 前端开发 编译器
【AI系统】GCC 主要特征
GCC(GNU Compiler Collection)是由理查德·斯托曼于1987年创建,最初作为GNU项目的一部分,旨在为GNU/Linux系统提供高效C语言编译器。随着时间发展,GCC不仅支持多种编程语言如C++、Java、Swift等,还具备强大的可移植性、模块化设计及跨平台交叉编译能力,成为全球广泛使用的开源编译器之一。其编译过程分为预处理、编译、汇编和链接四个阶段,支持静态和动态链接方式,适用于本地编译和交叉编译场景。
217 2
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
340 1
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
280 2

热门文章

最新文章