关于医学多模态大模型,你需要来学习这些最新研究

简介: 关于医学多模态大模型,你需要来学习这些最新研究

医疗数据复杂且众多,想要在其中窥探各种关联往往十分困难。要想将数据「穿针引线」,并且用专业的领域知识武装起来,这更是难上加难。这对于人类医生来说,需要多年的刻苦学习以及丰富的临床经验。那如果把这些数据交给机器,它们又能够有怎样的表现呢?


目前,多模态大模型在自然语言处理、计算机视觉上表现优异,这似乎能给医疗领域带来机遇。但现实是,由于医疗领域的专业性与复杂性,这些通用基础模型的效果并不理想。医疗大模型无法实现检查实体,这意味着它更加依赖于训练数据。但医疗数据具有多样性、稀缺性、隐私性以及复杂性,因此医疗大模型训练面临的挑战也是巨大的。无论是数据、模型,还是训练模式等多个维度都要接受严峻的考验。毕竟,当大模型应用在专业的医疗领域,这会切身影响着患者的治愈甚至是生命。


医疗诊断问题,用传统的标签学习的范式是无法够满足的。只有将涉及医疗的知识点相互关联,形成知识图谱,才能更让机器学习更加高效、精准,有利于帮助人类诊断疾病。


为了让大家更细致地了解医疗领域模型的进展,机器之心线上分享邀请到了上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员张小嫚,以《医学知识增强的多模态基础模型研究》为主题,为大家分享最新研究成果。


在此次线上分享中,大家可以跟随她的讲述,了解近期关于医学知识增强的多模态基础模型的相关研究,并展望基础模型能够从医学知识增强的角度出发,通过结合医学的强先验背景知识,提取适配医疗场景的多模态数据表征,降低数据依赖,开发出更适合医学领域的成果。




分享主题:医学知识增强的多模态基础模型研究


嘉宾简介:张小嫚,上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员,主要研究方向为医学知识增强的多模态基础模型研究。其导师是王延峰教授 ,张娅教授和谢伟迪教授,主要合作者是吴超逸见习研究员 。


个人主页:https://xiaoman-zhang.github.io/

Github: https://github.com/xiaoman-zhang

分享摘要:本次报告中,张小嫚将介绍近期关于医学知识增强的多模态基础模型的相关研究。从数据、模型和下游任务三个角度展开,具体包括:大规模医疗图文数据集与视觉问答数据集的构建(PMC-OA,PMC-VQA);医疗语言基础模型及多模态基础模型(PMC-LLaMA,PMC-CLIP) 的训练;知识增强的胸部 X-ray 疾病诊断基础模型 KAD。


相关链接:


Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images

https://arxiv.org/pdf/2302.14042.pdf

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology

https://arxiv.org/pdf/2301.02228.pdf

K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging

https://arxiv.org/pdf/2302.11557.pdf

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

https://arxiv.org/pdf/2303.07240.pdf

PMC-LLaMA: Further Finetuning LLaMA on Medical Papers

https://arxiv.org/pdf/2304.14454v1.pdf

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

https://arxiv.org/abs/2305.10415

相关文章
|
6月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
6月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
529 121
|
6月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
344 113
|
6月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
407 114
|
6月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
550 117
|
8月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
799 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
427 99
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
983 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章