大数据的应用统计之殇

简介:

今年,统计对大数据是非常重要的这一观念充斥着大众媒体。这里有几个例子,首先是Lazer等人在科学杂志上发表的文章,使得这一观念迅速蔓延。

· 谷歌流感的教训:大数据分析的陷阱

· 大数据,我们犯了一个大错误?

· 谷歌流感趋势:大数据的限制

· 八个(不,九个!)大数据的问题

所有这些文章涉及的问题都是统计人员思考了很长时间的问题:抽样总体,干扰因素,多重检验,偏置和过拟合。在大数据的热潮中,这些想法都被忽略或没有给予足够的重视。

原因之一是,当你真正花时间做一个正确的分析,仔细注意数据变化的所有来源,你将发现这几乎是一个定律:如果你只是把你的数据塞到机器学习的算法中,并报告任何出来的结果,你将会得到比你原本应该得到的更少的结果

新闻报道中最好的例子是谷歌流感趋势。谷歌流感趋势最初是作为一种机器学习算法,用来预测基于谷歌搜索关键词的流感病例的数量。尽管基础的数据管理和机器学习算法是正确的,但由于对数据收集和建模过程中的不确定性的理解不足渐渐导致极不准确的预测。如果是一位统计学家,他会仔细考虑采样过程,确定影响空间发展趋势的时间序列因素,研究为什么搜索词具有预测性,并试图了解谷歌流感趋势可行的可能原因是什么。

正如我们所看到的,统计专业知识的缺乏导致了基因组学和经济学研究上的一些经典错误案例。第一种情况,由AnilPotti领导的一队科学家设计了一个预测化疗反应的算法,该方案在科学界和大众媒体上均受到广泛好评。不幸的是,研究人员没有正确地考虑数据集变化的所有来源,用了错误的统计方法,忽略了主要的数据完整性问题。这篇文章的主要作者和编辑都缺乏必要的统计专业知识,从而导致严重的后果,并取消了临床试验。

同样,两位经济学家Reinhart Rogoff发表了一篇文章,声称GDP增长因为政府债务高而变慢。后来人们发现,在他们用于分析的Excel表格中有错误。但更重要的是,他们在回归模型中使用的权重被质疑为是不切实际的,并导致与作者公开拥护的观点截然不同的结论。失败的主要原因是对数据分析的假设缺少了灵敏度分析,而这是任何训练有素的应用统计学家都会做的事。

迄今为止,在主要的公共大数据领域中,统计思维也表现的非常缺乏。下面是一些例子:

· 白宫大数据合作伙伴研讨会- 0/19是统计学家

· 国家科学院大数据研讨会-2/13发言者是统计学家

· 摩尔基金会数据科学平台- 0/3董事有统计背景,1/25OSTP(科技政策局)关于这个平台的发言者是统计学家

· 提议成立NIHBD2K的组织- 0/18参与者是统计学家

· 白宫大数据部署- 0/4思想领袖是统计学家,0/n参与者是统计学家。

(译者注:NIH BD2K是美国国立卫生研究院在2013年启动的大数据创新计划)

还有一个例子是来自加州大学校友杂志的一个荒唐的表格,这是我在Terry Speed的令人惊异的演讲中找到的。(马上通过链接去看一下他的讲话,就能直接看到问题所在)它显示了对曾经在一系列科学学科中发展了重要的专业知识的应用统计学者的最基本的不尊重。

(译者注:上图来自加州大学伯克利分校(UC Berkeley)的校友杂志,显示的是该校几乎所有的学科在数据科学领域的贡献,唯有统计学是一片空白)

所有这一些导出了两个问题:

1. 鉴于统计思考的重要性,为什么统计学家在这些重大举措中没有发挥主动性?

2. 当思考大数据时代时,哪些统计理念是我们已经弄明白的?

作者:Jeff Leek


原文发布时间为:2014-12-12

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
4月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
4月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
4月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
4月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
4月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。
|
4月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
4月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。

热门文章

最新文章