近日,DeepHealth与全球多个知名机构合作,研发出的用于乳腺癌检测的深度学习模型击败了5名全日制放射科医师和之前的SOTA模型。尽管这个深度学习模型主要针对西方人群进行的训练,但也可以广泛适用于中国人群。作者还提出,他们有望开发出一种能够在全球范围内提高钼靶筛查准确性和可及性的软件。但在Reddit上,很多网友却发表了不同的观点与看法。
豪华创业团队,拥有最先进的机器学习技术,重点致力于乳腺癌钼靶筛查
DeepHealth使用最先进的机器学习技术,通过更好的医学影像解读来改善患者的临床结局。他们最初的重点是钼靶筛查,现在正在开发工具帮助放射科医师更早、更准确、更有效地检测到乳腺癌。他们的目标是改进乳腺癌筛查,使之可以惠及到所有女性。
DeepHealth团队
联合创始人兼CTO——Bill Lotter:
拥有哈佛大学生物物理学博士学位,论文聚焦于深度学习算法及其在神经系统科学和医学影像中的应用,在机器学习方面拥有10年经验,涉足多个细分领域。
联合创始人兼CEO——Greg Sorensen:
拥有几十年医学学术和医疗保健领导经验的神经放射学家。
联合创始人兼顾问——David Cox:MIT-IBM Watson AI Lab的主管。
他们参加了“数字钼靶DREAM挑战赛”(Digital Mammography DREAM Challenge),在这项参与人数众多的开放性数据科学竞赛中,他们团队提交的结果分数都最高;这给予了他们在这个方向上最初的信心。
该团队有多种资金来源,包括天使投资人、大型战略合作伙伴和非稀释性赠款资金。他们获得了美国国立卫生研究院(NIH)和美国国家科学基金会(NSF)的小型企业创新研究(SBIR)资助,总额为240万美元。
论文解读:高效注释的深度学习方法,完胜5名受过专业训练的放射科医师
乳腺癌仍然是全球性挑战,2018年在全球造成超过100万人死亡。为实现早期乳腺癌检测,全球卫生组织推荐行X线钼靶筛查(乳腺癌筛查的“金标准”),据估计可将乳腺癌死亡率降低20-40%。然而,显著的假阳性和假阴性率,以及高昂的解读成本,使得临床仍需要质量更高、可及性更高的筛查手段。
为了解决临床实践中存在的这些局限与不足,近年来研究者们对“将深度学习应用于钼靶”产生了浓厚的兴趣。但是,获取大量带标注的数据给训练深度学习模型,以及确保训练数据集中代表人群的泛化提出了挑战。
为了在减少过度拟合的同时有效利用强标注和弱标注的数据,作者在分阶段中训练了深度学习模型。
模型训练方法
为了评估深度学习方法的性能,作者进行了一项“读片研究”(Reader Study),使用的是从与其他训练数据来源不同的一个美国州的区域性卫生系统中回顾性收集的筛查DM病历。该地点没有数据被用于模型训练或选择。5名接受过乳腺成像全日制专科训练的放射科医师参与了该研究。
在“读片研究”中,作者首先比较了放射科医生的表现与深度学习模型在“Index Cancer”钼靶影像中的独立性能。
“读片研究”结果—Index Cancer Exams
该研究提出的深度学习模型在131个“Index Cancer Exams”与154个确诊为阴性的病例中,均胜过5名放射科医师。
备注:每个数据点代表一个读片者,ROC曲线代表深度学习模型的性能。十字对应于放射科医师的平均表现,其长度表示平均敏感性和特异性的95%置信区间。
“Index Cancer Exams” :131例来自于最初被解读为疑似癌症的钼靶影像的检查,并在筛查日期后三个月内通过对其活检组织进行病理学检查确诊为患有癌症。
“pre-Index Cancer Exams”:在131名女性中有120名在“Index Cancer Exams” 之前的12-24个月进行的先前筛查。
该研究提出的深度学习模型在癌症早期检测的任务中性能也优于5名放射科医师(该数据集包括120个“pre-Index Cancer Exams”(在“Index Exam”发现癌症之前的12-24个月临床上钼靶筛查的结果被解读为阴性)和154例确诊为阴性的检查)。
“读片研究”结果—pre-Index Cancer Exams
“pre-Index Cancer Exams”在很大程度上可以被认为是挑战性假阴性;因为据估计,乳腺癌通常在钼靶检测的3年以前就已经存在。
研究总结:在该项研究中,作者提出了一种高效注释的深度学习方法:
(1)在钼靶影像分类中达到最先进的性能;
(2)成功延伸至数字乳腺断层摄影(Digital Breast Tomosynthesis,DBT,“3D钼靶”);
(3)在癌症患者临床上先前的钼靶筛查结果为阴性时检测出癌症;
(4)普遍适用于筛查率低的人群;
(5)通过将绝对灵敏度平均提高14%,超过了5/5的全职乳腺影像专家。该项研究表明,作者有望开发出一种能够在全球范围内提高钼靶筛查准确性和可及性的软件。
网友热议:值得期待,但距离取代人类医生还有距离
过去,在辅助医疗诊断上的AI应用和模型不可谓不多,但深度学习模型对训练数据高度依赖,而医疗影像学领域的数据获取难度大、数量少、结构化程度低,再加上患者对医生的信任和隐私保护等问题,真正能为普通患者带来福音的例子仍是少数,大多数停留在学术会议的讲台上,或给投资人看的PPT中。
不过,由于本论文声称AI模型在诊断上战胜了全部5名人类放射科医生,这篇文章迅速引起网友关注,在Reddit上引发不少评论:
尽管这个深度学习模型主要针对西方人群进行训练,但也可以广泛适用于中国人群。
很高兴看到这个研究可以重视并解决人群差异。
我不知道为什么这篇文章使用这5个放射科医生的平均敏感性/特异性与AI模型进行比较,而不用ROC凸包曲线(ROC convex hull)。从目前的情况来看,现在的方法使比较结果更偏向于模型,而用于比较的5人里似乎包括了两个水平很明显较烂的放射线医生。
所以我怀疑该模型实际上并没有达到文中声称“胜过人类医生”的水平。不能为了突出AI就故意找两个蹩脚医生来作对比吧。
这不是偏见,仅仅是反映了一个事实,即找一群放射科医生的预期诊断结果要比大多数精心选择的医生的诊断预期结果差。如果低敏感性的放射科医生没能诊断出癌症,这本身也是很重要的。故意忽略这些“蹩脚医生”诊断结果的潜在危害明显会更大。
的确,这只是一条相关信息,采用凸包曲线确实可以更好地衡量人类医生的最佳诊断表现,但是即使仅仅浏览论文大意也应该不难看出,文中确实将AI诊断结果与人类放射科医师进行了比较,这种比较是在多项“综合表现”上的,AI模型在每个数据上都更出色。
这与谁诊断的最准无关。即使所有放射线医师都水平相近,都追求很高的诊断灵敏度,只要不同的医生之间存在差异,这些结果的平均值就会落在凸包曲线内。
在另一个技术类资讯聚合网站Hecker News上,一位自称是放射科医生的网友认为这篇文章有点吹的太过,并对现在这类AI模型的趋势表示了担忧:
关于AI看片子诊断的问题讨论中,有几个关键点常常被忽略,比如:
1)乳房X光片不能孤立地看。实际上,在最终做出乳腺癌或其他诊断之前,乳腺X光片通常是一连串临床检查中的第一个。实际上,将乳腺X线摄影作为筛查检查可能更准确,因为一般来说患者需要进行活体组织检查,而不是对癌症的诊断性检查。
2)坦率地说,我自己是个放射科的医生,乳腺X光检查在对乳腺癌整体诊断方面还不够出色。所以一般要结合B超,断层X光合成和MRI等检查结果作为辅助依据,甚至取代X光检查。
3)整体来讲,乳腺X光片检查的用处有多大还存在争议,尤其是在筛查范围内。作为放射科医生来讲,他们比任何人都希望这些研究的敏感性和特异性越高越好。
现在鼓吹推动这些“放射线检查已经成熟”或“ AI医生已经胜过人类放射科医生”的人,显然不了解医疗机构内部的真实情况。这些人往往就喜欢这种言论,这些东西才好向VC要投资,更像是开会头脑风暴时提出的“突破性想法”,也更方便做成PPT给领导看。
当然,有人并不同意这一点,并逐条进行了反驳。
- 这篇文章专门讨论了乳腺X光术,但并没有声称要取代完整的人类诊断。
- 从论文摘要里明确讲到了,该模型的应用已扩展到数字化乳房断层X光合成检查领域”
- 我刚大概看了看这篇文章,没发现任何吹的意思。而且在没有高级医疗条件和充足的训练有素的医护人员的情况下,任何成功的诊断自动化技术对患者都是一件幸事。