Science:当大数据遇上公共卫生

简介:

导语:通过大规模降低噪声,大数据可以造福全人类


1854年,一场霍乱席卷了整个伦敦。有个叫John Snow的流行病学家(现代流行病学的创始人),一心要找出霍乱爆发的源头。他历尽千辛万苦,记录了所有受到霍乱影响的房屋位置。经过了漫长且费力地调查,他终于确定了Broad Street上的水泵是这次霍乱爆发的源头,即使那时候他还不知道霍乱是某种Vibro病菌引起的情况下。“如果换做现在,Snow就可以充分利用全球定位系统和流行病规律数据,在短短数小时内解决了问题。” 这是“大数据”在公共卫生领域的潜在影响。


但是大数据的前景也伴随着这样的说法“这一科学方法本身正在变得过时”,随着下一代的计算机的诞生,比如IBM的Watson,基于大规模数据的筛选而提供预测模型。从海量的噪声中分离出真实信号绝非易事,但如果要让信息转化成社会福利。这个挑战必须克服。


术语“大数据”解释为大量的、复杂的、有关联的信息。除了基因和其他“omic”领域,大数据也包括了医疗,环境,金融,地理和社会媒体等领域的信息。大部分数据信息在10年前是不存在的。数据来源持续增加,数据膨胀也将继续升温。大数据通过洞悉疾病的因果来改善公共健康,为精准医疗提供更好的药物靶标,从而改善疾病预测和预防。不仅如此,科学家们将加大该信息的使用去改善他们自己的健康。大数据能够改善我们对健康相关行为的理解(吸烟,酗酒等),同时加速知识扩散的良性循环。


但是“大误差”会扰乱大数据。在2013年,当流感过早地袭击美国的时候,流感相关互联网搜索引擎数据分析过度估计了流感峰值,还没有传统公共卫生监测分析来的准确。更严重的问题是潜在的错误警报,由大规模“疾病结果的推断性关联分析”所引发。自相矛盾的是,当我们能测量更多参数的时候,新“发现”中的错误预测比例也会上升。伪相关和生态谬误也相伴而生。有很多诸如此类的例子,比如“蜜蜂的群落数量和未成年人大麻逮捕率呈负相关”。


通过要求复制研究结果和提高信号的统计显著性,基因组学领域早已着手解决信号与噪声的问题。这就是为什么要运用大规模协作的流行病学研究。对于非基因关联研究,即使使用大规模研究,大量地复制实验和超强信号,由于变量复杂性或者其他偏差所导致的错误预测也有可能发生。大数据的优势是找到关联,而不是解释这些关联的意义。找到关联信号仅仅是第一步。


就连John Snow也要先设定一个有理有据的假设,要弄清楚从何处着手,比如,选什么样的数据进行检验。如果他所用的只是一大堆乱糟糟的数据,他也许会找到类似蜜峰群落和大麻逮捕率间的伪关联而告终。关键在于,Snow“做了实验”。他移除了水泵的手柄,明显地降低了霍乱的传播,也因此从关联转移到因果关系和有效性的寻找验证。


如何能让大数据在提升健康和预防疾病方面发挥更大的作用?答案是:必须有更强的流行病学研究基础。大数据分析目前主要是基于网络上随机的人群样本或信息。当用完美的测量数据(如基因序列)和低质量的测量数据(如行政发布的健康数据)来寻找关联性,研究的准确性将会因为最弱的关联而降低。大数据是自然观察的数据,充斥着许多偏差,如选择性偏差、混杂因素和缺乏代表性数据。大数据分析应该使用具有良好流行病学特征和代表性的人群。这种流行病学方法已经很好地应用于基因组学领域,也可以推广到其他类型的大数据研究。


大数据研究需要有一个很好的知识整合方法,可以整合包括在某个学科或跨学科领域中的反复证明过的已知的和未知的知识。需要进行知识管理、知识整合和知识转化。数据注释还可以通过机器学习算法来辅助。例如ClinGen项目,建立集中的临床注释的基因资源用于更好地解释基因组的多态性和优化基因组在实践中应用。还有新基金,如NIH资助的Biomedical Data to Knowledge基金,将研发这个领域新的工具。


另一个需要解决的重要问题是大数据是一个假设产生(hypothesis-generating)机器,即使在建立了强关联后,评估健康相关效用的证据仍然是必须的(如评估健康益处和害处的平衡)。利用基因组和大数据信息做研究必须使用随机临床试验和其他试验设计。急救医学中是否可以应用大数据关联分析,仍然需要进一步的干预性研究进行论证。是否可以作为预测工具也需要进一步论证。换个说法,我们应该拥抱(不是逃离)循证医学原则。我们应该从临床多样性(证明大数据和疾病之间的强关联)转向临床有效性(回答“谁在乎who cares”健康影响问题)。


与基因组学研究领域一样,基于大数据的扩展性转化医学研究计划将会使研究比原来更深入。在基因组学研究领域,大多数发表的研究既包括基础医学研究也包括健康相关检测和干预的临床前研究。在这些研究之后,需要实现从实验室到临床的转化。但目前在现实世界中进行验证、评估、实施、政策、沟通和预后研究的只占公开发表研究的 1%不到。要从大数据中获益需要“大局(Big Data)”视角。


将大数据引入到公共卫生领域的事业才刚刚起步。如果我们能够整合较强的流行病学研究基础、有力的知识整合方法、遵循循证医学的原则,扩展转换医学的规模和计划,会将大数据带到正确的道路上来。


原文发布时间为:2015-05-07

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
人工智能 运维 Kubernetes
阿里云容器服务ACK AI助手正式上线带来的便利性
作为开发者想必大家都知道,云原生容器技术的优势,尤其是近两年的随着容器技术的迅猛发展,Kubernetes(K8s)已成为广泛应用于容器编排和管理的领先解决方案,但是K8s的运维复杂度一直是挑战之一。为了应对这一问题,就在最近,阿里云容器服务团队正式发布了ACK AI助手,这是一款旨在通过大模型增强智能诊断的产品,旨在帮助企业和开发者降低Kubernetes(K8s)的运维复杂度。那么本文就来详细讲讲关于这款产品,让我们结合实际案例分享一下K8s的运维经验,探讨ACK AI助手能否有效降低K8s的运维复杂度,并展望ACK AI助手正式版上线后的新功能。
880 2
阿里云容器服务ACK AI助手正式上线带来的便利性
|
2月前
|
编解码 缓存 定位技术
《3D开放世界地形开发:动态LOD与智能融合的轻量化实战路径》
本文围绕宋代山水背景开放世界3D地形开发,针对“细节呈现”与“加载性能”的矛盾,分享“动态LOD分层+地形智能融合”的轻量化方案。作者按视距将地形分近、中、远三层,配差异化建模与纹理,加10米过渡带解决断层,PC端加载时间缩至5秒;通过凹陷槽、过渡纹理等优化地形与植被、水体、道具的融合;从模型压缩、纹理优化、流式加载降资源消耗,移动端内存占比大减;依PC、移动、主机特性做适配,各平台帧率达标率超95%。
220 5
|
JavaScript 数据格式
vue3 + Ant design vue formItem 无法使用嵌套的form表单校验
vue3 + Ant design vue formItem 无法使用嵌套的form表单校验
1049 1
|
消息中间件 存储 运维
从 Kafka 2.x 到 Kafka 3.x:升级之旅
从 Kafka 2.x 到 Kafka 3.x:升级之旅
2805 2
|
9月前
|
数据采集 消息中间件 API
微店API开发全攻略:解锁电商数据与业务自动化的核心能力
微店开放平台提供覆盖商品、订单、用户、营销、物流五大核心模块的API接口,支持企业快速构建电商中台系统。其API体系具备模块化设计、双重认证机制、高并发支持和数据隔离等特性。文档详细解析了商品管理、订单处理、营销工具等核心接口功能,并提供实战代码示例。同时,介绍了企业级整合方案设计,如订单全链路自动化和商品数据中台架构,以及性能优化与稳定性保障措施。最后,针对高频问题提供了排查指南,帮助开发者高效利用API实现电商数智化转型。适合中高级开发者阅读。
|
9月前
|
Java
课时18:Java运算符(逻辑运算符)
课时18介绍了Java中的逻辑运算符(与、或、非)。通过范例详细讲解了非操作的使用,展示了如何正确应用逻辑非(!)。接着分别探讨了与操作(& 和 &&)及或操作(| 和 ||),强调了短路运算符(&& 和 ||)在性能和安全性上的优势。课程通过具体代码示例演示了不同逻辑运算符的效果及其应用场景。
252 5
|
算法 搜索推荐 数据挖掘
二分查找法的应用场景
【10月更文挑战第9天】
958 58
|
监控 Go 开发者
Golang深入浅出之-Goroutine泄漏检测与避免:pprof与debug包
【5月更文挑战第2天】本文介绍了Go语言并发编程中可能遇到的Goroutine泄漏问题,以及如何使用`pprof`和`debug`包来检测和防止这种泄漏。常见的问题包括忘记关闭channel和无限制创建goroutine。检测方法包括启动pprof服务器以监控Goroutine数量,使用`debug.Stack()`检查堆栈,以及确保每个Goroutine有明确的结束条件。通过这些手段,开发者可以有效管理Goroutine,维持程序性能。
515 7
|
Java 程序员 编译器
返回值不同算方法重载么?为什么?
本文解释了为什么返回值不同不算方法重载,强调了方法重载是基于方法名称和参数列表的,而返回值不是方法重载的考虑因素,因为返回值不影响JVM的方法签名,也不会造成编译时的歧义。
346 1