医工结合之路:草木蔓发,春山可望 | 专访清华统计中心俞声

简介:

清华大学统计学研究中心助理教授俞声,主要的研究方向是基于电子病历的数据分析,他与数据科学研究院的合作始于数据院和清华大学临床医学院合作搭建清华临床医学科研数据平台(以下简称:医学数据平台)。“我们自己去跟医院谈合作,不一定能引起人家的兴趣,医学数据平台的搭建促使我们能够更好的使用医疗数据做研究。”和长庚医院深度合作,俞声认为医学数据平台功不可没。

俞声有着丰富的国外医疗数据统计分析经验,即使是回国后,在与数据院合作之前,他的研究对象依然以美国电子病例为主。相较于国外成熟的医疗数据体系,国内医疗数据的收集、开放、处理都面临着诸多困难。“早期我主要研究美国的电子病历,诸如退伍军人系统这类最优质的数据我们都能拿到,数据根据一套严格的管理规范允许我们使用。但是国内相关的环境和规定还不完善,医院大都不敢提供数据,”他为我们分析道。“另外,中文病历的分析难度也比英文更大。美国有非常完备的术语库,类似字典,包括标准术语和各种常见变体、缩写,可以用来辅助识别病历中的各种医学概念,将文字转化为变量。中文没有类似完整的术语库,所以一方面我们需要开发额外的术语自动识别技术,另一方面也希望国家加大医学信息基础设施建设的投入。”

除了医疗数据的使用和规范之外,国外的医疗数据研究团队也有相对成熟的模式。俞声跟我们介绍,美国研究医学问题的团队历来都会配备生物统计学家,医学背景的人提出研究问题,生物统计学家会帮助设计实验、建立模型、排除干扰变量,并对结果的解读提供统计学指导。“但是在国内,医生很少和统计学家合作科研。”俞声说,“所以数据院和临床医学院搭建的医学数据平台是非常有意义的。联合医学专家和数据科学领域专家,大家术业有专攻。像我个人是有统计和计算机交叉的知识背景,与医学专家合作,我们可以发现许多新问题,从新的角度去解决问题,例如自然语言处理、深度学习这些技术都可以帮助有效处理医疗数据。”

通过医学数据平台,俞声团队在肝癌、脑卒中自由文本数据的信息提取、病历文本挖掘等方面都与医院展开了合作。医院提出和临床直接相关的医学问题并提供数据支持,俞声团队则提供技术支持并进行统计分析,得出和临床相关的结论。“为了数据安全,原始病历数据不能离开医院,所以实际上我们要处理什么数据,都要往医院跑,路上会比较辛苦。”提及与医院合作的过程,俞声有不少感慨:“数据院正在建立的医学数据平台,可以实现数据脱敏,并允许清华IP远程读取存储在医院服务器上的数据,远程处理之后传回结果。相当于数据还是留在医院,但是我们远程就可以实现处理和分析,就不用每次都奔波往返于医院和学校之间了。”

平台还在不断搭建和完善,国内医疗与大数据结合的工作还有许多困难需要克服。俞声相信,数据院和长庚医院的合作模式将会给全国带一个好头。在数据院的推动下,“医工结合”这条路已然草木蔓发,春山终可望!


原文发布时间为:2018-06-11

本文作者:数据派

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 安全 Linux
|
Android开发 开发者
【Magisk模块】Miui Core:在非MIUI系统上运行MIUI服务框架(V2.7)
【Magisk模块】Miui Core:在非MIUI系统上运行MIUI服务框架(V2.7)
4540 0
|
2月前
|
人工智能 安全 JavaScript
OpenClaw有什么用?本地/阿里云部署+百炼集成+个股分析实战盈利及避坑指南
OpenClaw是2026年首个开源、可本地/云端部署的AI Agent平台,不止聊天,更能自动抓新闻、分邮件、写代码、建个股模型;支持飞书/微信等20+平台,数据全链路本地化,真正让AI替你闭环干活。
575 7
|
2月前
|
机器学习/深度学习 人工智能 编解码
PCB印刷电路板表面缺陷检测数据集(近 3500张图片已标注)| YOLO训练数据集 AI视觉检测
本数据集围绕工业实际需求构建,专注于 PCB 表面典型缺陷识别任务,具有如下特点: 📌 数据规模适中:3500 张高质量图像,兼顾训练效率与模型效果 📌 类别覆盖全面:包含 6 类常见工业缺陷 📌 标注精度高:误差控制在像素级别,满足工业级标准 📌 场景贴近真实:来源于实际生产或仿真工业环境
|
2月前
|
人工智能 自然语言处理 算法
认知重构与技术落地:Java AI开发的AIGS范式实践之路
AI深度融入企业开发,Java正从传统编码迈向“技术+智能”服务构建。JBoltAI作为专注Java生态的企业级AI框架,支撑AIGS(人工智能生成服务)范式落地,推动认知跃迁、架构重构与智能体演进,助力Java团队高效实现系统级智能化升级。(239字)
204 2
|
6月前
|
SQL 资源调度 OLAP
StarRocks 性能实测:在 Coffee-shop Benchmark 中快 10 倍!
在评估数据库性能时,如何同时衡量“算得快”和“算得省”一直是工程师关注的核心问题。
|
人工智能 算法 IDE
通义灵码:以AI重塑开发者生产力,解锁智能编程新范式
通义灵码是阿里云推出的一款AI智能编程助手,基于通义大模型打造,深度集成于主流IDE。它不仅提供全场景智能代码生成、对话式开发体验和工程化智能重构等功能,还通过百亿级参数大模型底座、企业级环境适配、私有化部署等优势,重新定义人机协作边界。在真实开发场景中,通义灵码显著提升API开发与算法优化效率,助力开发者从机械劳动转向创造性对话,开启人机协同的新时代。
757 9
|
云安全 存储 运维
阿里云的ACE认证含金量高不高?考试内容是什么?
作为目前市场上占比最大的云计算,阿里云旗下的认证是相当具有含金量的。
|
前端开发 JavaScript
前端基础(五)_运算符(算术运算符、赋值运算符、比较运算符、逻辑运算符、三目运算符、运算符优先级和结合性、数据类型的隐式转换)
本文介绍了JavaScript中的算术运算符、赋值运算符、比较运算符、逻辑运算符、三目运算符、运算符优先级和结合性以及数据类型的隐式转换。
423 3
|
Prometheus Kubernetes 监控
在K8S中,Pod处于OOM状态如何排查?
在K8S中,Pod处于OOM状态如何排查?

热门文章

最新文章