机器学习改善癌症诊疗,人工智能革新医药产业

简介:

有些事,只靠人力就是没法做到。

 

由此,MSKCC (凯特琳癌症中心)跟 IBM 合作,利用超级计算机IBM Watson 吸收知识的能力,扩展人类的极限:IBM Watson 每秒能够扫描上万亿字节的医疗数据,而且“过目不忘”,再结合强大的机器学习算法,从大量结构化和非结构化数据中得出洞察,进而助力医生做出更加个性化的的治疗方案。

 

在福布斯的报道中,与IBM Watson 合作的医疗机构Wellpoint的医生表示,试验中IBM Watson 对肺癌诊断正确的几率为 90%,而人类医生只有 50%。使用IBM Watson 参与临床教学的医院 Cleveland Clinic 的医生都经常为IBM Watson 给出的建议治疗方案感到惊叹:“为什么我(们)当初就没有想到那一点?!”


让机器从数据中找规律


虽然“科学和技术飞速发展”已成了老生常谈,而癌症诊疗还是一个充满迷思的领域。目前,人们经常提及并感到恐惧的癌症包含:“肺癌”“乳腺癌”等。

 

借助基因检测等生物信息技术,我们知道,所谓的“肺癌”“肾癌”“乳腺癌”,实际上是对成千上万种不同的细胞突变模式或错误排列的总称。根据 2015 年一篇研究肾癌的论文,正如世界上没有两片一模一样的树叶,地球上也没有两个一模一样的肿瘤;还有研究发现,就连同一个人的同一个肿瘤里面,也没有两个细胞在遗传基因上是一样的。

 

了解这一点,对癌症诊疗十分关键。目前,癌症诊断几乎全都是靠“看”:人类医生在显微镜下观看细胞或组织样本,有时候对细胞DNA、RNA 或者蛋白质的一些测试结果可以帮助医生做出判断——但归根结底,还是靠“看”。据媒体报道,2014 年,美国肺癌、乳腺癌和皮肤癌的死亡率将近 40%,所以对于癌症而言,早发现早治疗非常关键。


靶向药物及疗法的出现,使癌症医疗情形大为改观。所谓“靶向治疗”,就是针对含有某种癌症有关的基因突变的细胞,开发“靶向药物”,要么杀死这些细胞,要么使其不能复制。然而,据统计,目前癌症药物治疗有效——即肿瘤体积显著缩小——比例只有 22%。也就是说,再怎么“靶向”,当靶子的数量太多时,治疗也鞭长莫及。

 

如何从大量杂乱无章的信息中发现模式并找出规律?

 

很容易想到的方法是,借助机器的计算力分析并预测医疗数据。1991年,用于医学诊断的简单贝叶斯方法 QMR 模型被提出。1994 年,《美国医学信息学会》(JAMIA)发表了题为《医疗诊断决策支持系统:过去、现在和未来》的调查文章。2005 年,《英国医学杂志》(BMJ)发表了题为《用临床决策支持系统提高临床实践》的论文。

 

近年来,随着计算能力的提升和相关医疗大数据的发展,越来越多的医生开始使用机器学习帮助癌症诊断。机器学习算法使用各种统计、概率和优化方法让计算机从输入中“学习”,从海量非结构化的数据中识别出人类难以识别的模式。除了癌症诊断,机器学习也可以用于癌症预后及复发的判断。

 

在癌症诊断中使用的机器学习算法主要有三种:监督学习、无监督学习和强化学习。在监督学习的情况下,癌症诊断可以简化为“分类”:模型根据训练结果,将输入的数据分为几类。假设采集了与乳腺癌有关的数据,根据肿瘤的大小判断该肿瘤是良性还是恶性,那么机器学习模型要问答的问题,就成了估计这个肿瘤是良性(或恶性)的概率,如下图。

 


还一种广泛使用的机器学习方法是半监督学习,也就是监督学习和无监督学习的结合。采用半监督学习时,输入的数据有的打了标签,有的则没有标签,通常没有标签的数据会更多。完善标签的质量后,机器学习算法相比一般的预测模型,正确率会有大幅提升。


 


机器学习算法

                  优势

                     局限

决策树

简单好用、可以通过pruning处理过度拟合问题

各项必须互斥、最终决策树取决于选项输入的顺序,训练集错误会影响整个决策树

Naïve Bayes 

广泛适用、效率高,输入不分前后

假设各项独立,假定各属性正态分布,选项和分类频率影响精度

k临近分类

分类快、非线性问题,可接受非结构化输入

假设各项同样重要,输入项增加计算量剧增

神经网络

可用于分类和回归,可接受非结构化输入及无标签输入

算法黑箱,难以评估

SVM

非线性问题,复杂度可控

训练数据不是线性可分时很难确定最佳参数,比贝叶斯和决策树的训练速度慢

遗传算法

可用于特征归类和特征选择,主要用于优化,能得出一个“好”的答案,但并不一定是“最优解”

最优方法不一定全局性,输入/输出复杂性与选项表征有关

 

2016 年1月,罗氏制药收购了名不见经传的Foundation Medicine,获得了 3.5 万份癌症基因测序及其推荐治疗方案。2016 年 4 月,由原华大基因CEO王俊创办的碳云智能对外公布 A 轮接受融资,估值 10 亿美元,要构建健康大数据平台,整合遗传、医疗、营养乃至美容健身等各类健康数据资源。像这样的例子还有很多很多,奥巴马政府去年初提出的“精准医疗计划”、“Cancer Moonshot”,也都是想利用大数据和人工智能帮助人类医生,提升癌症的治愈率。

 

目前,对于某些疾病,算法的准确度已经足够高,远远超过人类医生。越来越多的人类医生开始意识到,借助机器学习,他们能够快速精准地获得临床有用的医疗信息


医药步入“智能化”


目前,每年花费在抗癌药物研发的大量资源中,有很多都浪费在了所谓的“试错”上面。近年来计算机科学的发展,让很多医疗机构都将认知计算和大数据用于癌症诊疗,IBM 算是较早就开始尝试这一点;截止 2015 年底,IBM Watson 阅读了 1967 年到 2000 年的 470 万份专利和 1100 万份医药期刊,并从中生成了 250 多万种新的化合物,构建了一个强大的数据库(Strategic IP Insight Platform)——就像计算材料科学家使用机器学习算法加速新材料的发现,此举也将有望大举加速抗癌新药的研发。

 


 不仅如此,机器算法还能提升现有癌症药物的使用率。UCSF 研究人员开发了一种能够系统性筛选现有癌症药物的程序,并检测了 90 种现有抗癌药各自针对 51 种基因突变的治疗效果。根据去年在 Cancer Discovery 发表的论文,该团队已经发现了超过 10 种有望进入临床试验的药物,其中包括一些此前根本没人想到的方案,比如原本为了 AA 基因突变研发的 aa 药,实际上对 BB 基因突的治疗结果更好,乃至可以进入临床试验。

 

不单药物研发理论,人工智能在实际药物生产过程中也起到了很大的加速作用。前不久,MIT的 3 名教授在 Science 发表论文,宣布团队成功将制药工厂装进了“电冰箱”。研究人员在论文中描述了一款电冰箱大小的一体化制药机原型。


据介绍,这台制药机一天之内可以生产 1000 剂量的药片,将制药速度提升了 10 倍,目前已经可以生产Benadryl、lidocaine、Valium和Prozac 这 4 种常用药。这款制药机独特的地方在于,它将传统制药过程中的电路、加热器、混合器、反应器等设备,集成为一个电冰箱大小的封闭工作站。一般而言,合成药物所需要的温度、压强等参数都可以事先设置好,只有个别步骤需要技术人员控制或者加入原料。这台机器可以根据药物的特点,调整参数和配件,以往需要多个工厂联合生产的药物,只用这一台机器就能够完成。

 

最后,从药物研发出来到经过批准上市,一般也需要长达几年甚至几十年的时间,这对癌症患者而言,恐怕比金钱更加难以承受。新智元智库专家王飞跃教授在《虚拟现实:平行也可以相交》一文中指出:“现在制定和实施一项社会政策,往往需要多年才能检验到实际效果。如果有虚拟现实构造的人工社会模型,政策制定后,拿虚拟人做试验品,在‘计算’试验中发现政策中的可能漏洞,推理中的可能局限甚至偏见,再通过虚拟现实把逻辑上的错误和个人的私利尽可能剔除出来加以修正。通过智能系统选择最优化的方案,而不是拿实际的人力、资源、财政来试错。


此外,还可以在虚拟和物理社会中同时实施政策,比较两者的结果,如果两者不一样,之间的差别就变成了修正政策的反馈信号。是不是当时的假设错了?如果假设没错是不是现实社会中有人搞了鬼?通过虚拟现实,形成闭环的、有反馈的虚实互动,最后走向虚实一体、知行合一。不单是社会政策,未来甚至每个人每做一件事之前都应该先虚拟化,模拟每一步有什么目标,怎样实现,这就是知识自动化的第一步,由于效率提高节省出来的时间将被用到事前虚拟中去,不难设想,事前虚拟将减少许多社会矛盾和资源浪费。”同样,我们也能畅想,未来将虚拟现实应用于药物临床试验,必将极大缩短药物从研发到上市的时间,此外还能解决样本少、减轻临床试验者痛苦等其他问题。

 

目前,有几百个基因疗法正在研发之中,对于大约5000种由单一基因错误导致的罕见疾病来说,很多疗法都将是百分百治愈的。


没有理由不充满信心——AI将真正成为医护人员助手


或许上面说的这些看起来都很遥远,实际上机器学习已经投入实用,在美国有很多医生和护士都会利用机器进行决策。

 

医疗公司辉瑞和IBM合作,利用认知计算解析复杂数据的能力,整合可扩展的测量和分析系统,预计推行 24 小时全天候的病患监测,为患者提供更好的治疗。

 

在中国,以房颤病人需接受干预为例,借助IBM认知医疗数据模型的确认和精准化分析,某些城市的医院已经实现了卒中(中风)风险预测精度提高,在高风险病人中精确地找到真正需要干预的病人,极大降低病人不必要的医疗花费。

 

就在常用的社交网络中,也埋藏着大量有助于癌症诊疗及预防的信息。由于患者经常使用社交网络分享就医经验和治疗感想,因此,收集并分析社交网络上的有关信息,有望提供能用于癌症预防和治疗以及完善医医疗体系和政策的辅助信息。

 

而确实也有研究人员使用机器学习算法和自然语言处理,分析 Twitter 中什么样的关键词会触发关注,哪些医疗信息更容易得到传播,这些信息都有助于健康政策以及疾病预防。不仅如此,去年 BMJ 一篇论文描述了一个由美英科学家组成的团队,搜集人们在 Twitter 上发送的消息,评估患者就医体验,对于改善医疗体系也有帮助。

 

人工智能能够改善就医体验,提高癌症诊断正确率,加速新药研发。随着时间推移,越来越多的医药研究者与计算机科学家合作,共同完善机器学习等人工智能在医药领域中的应用。不仅如此,还可以看到一大批综合性人才的崛起。既拥有医药学知识,又具备人工智能洞见的研究者,将是未来医药界的发展基础。

 

而且,我们没有理由不充满信心——当奥巴马提出精准医疗计划,宣称要“治愈”癌症时,很多美国医药界人士的反应都比较积极,没有人会天真地以为癌症能被简单“治愈”,但他们很高兴奥巴马用了“治愈”这个词,这是人类一直努力的目标,有了人工智能,只会让我们更快达到那里。


文章转自新智元公众号,原文链接

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
|
5月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
720 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
5月前
|
机器学习/深度学习 人工智能 运维
阿里云PAI人工智能平台介绍、优势及收费标准,手动整理
阿里云人工智能平台PAI是面向开发者和企业的机器学习与深度学习工程平台,提供数据标注、模型构建、训练、部署及推理优化等全链路服务。内置140+优化算法,支持PyTorch、TensorFlow等多种框架,具备高性能训练与推理能力,适用于自动驾驶、金融风控、智能推荐、智慧医疗等多个行业场景。PAI提供零代码开发、可视化建模、大模型一键部署等功能,助力企业快速构建AI应用。支持多种购买方式,如按量付费、预付费等,满足不同业务需求。
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
266 11
|
6月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
7月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
403 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
6月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
325 6
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Java+机器学习基础:打造AI学习基础
随着人工智能(AI)技术的飞速发展,越来越多的开发者开始探索如何将AI技术应用到实际业务场景中。Java作为一种强大的编程语言,不仅在企业级应用开发中占据重要地位,在AI领域也展现出了巨大的潜力。本文将通过模拟一个AI应用,从背景历史、业务场景、优缺点、底层原理等方面,介绍如何使用Java结合机器学习技术来打造一个AI学习的基础Demo。
505 18