[译]数据会骗人?帮你能看懂图表的误导!

简介:


我们看到过各种图表,其中最常见的就是曲线图。你可能觉得它没有什么难理解的,很容易看明白。甚至,你自己也做过各种漂亮的曲线图。但是,如果处理不得当(或被精心处理过),会造成很大的误导。


记得我小时候读到一期《疯狂杂志》,里面有一则关于统计学的搞笑漫画。它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影。


漫画的第一幅图里,剧院经理在一则广告中声称上周电影票房翻倍。第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退场。


然而,多年来我仍看到媒体一直在发布这种误导信息。最常见的做法是,文章里的图表被巧妙的处理过,以用来支持作者自己想要表达的结论。或者,有些图表没被那么别有用心地设计过,只是作者不懂该如何准确呈现数据并得出结论。


我将选择彭博新闻社为例子,没有其它原因,只因为它是我最近遇到的。毕竟彭博新闻社是做财经新闻的,他们本应在统计数据上做的更好。但是,他们也犯一些误导错误,


例如这篇Mark Gimein写的文章美国男性:四十年的收入下降Mark Gimein是彭博网的公司和市场板块的编辑,以及Market Now 博客和时事通讯的领衔作者。听起来是个很聪明的人,对吧?不幸地是,他也犯了我在无数其它出版物里看到的同样错误。


在他写的文章里,他用了美国人口普查局的数据来说明:在过去三十年中,美国男性收入的中值(考虑了通货膨胀)不断地在下降。看下这张他用来证明自己观点的图表:



你能从上面的图表中得出什么结论呢?它看起来相当严峻,对吧?看看那直线的斜率!我们得多么忧心啊!


也许担心还为时过早,因为这张图表有几个问题。为了说明这些,我已经用同样的数据画了几个新版本,让我们一起来看一看。

数据点不足

在原始的图表中,作者对于每个年龄组仅选取了两个数据点。试想,如果在那30年间的某一年有一个尖峰?又或者,如果那个下降仅在过去的几年才开始?再或者,如果1972年和2012年是异常值并且扭曲了数据的趋势?


让我们回顾一下美国人口普查数据,并将1972年到2012年的数据都加进来,以得到更高的分辨率。我们得到如下结果:


增加数据分辨率后的结果


这与原图看起来有所不同,不是吗?现在我们分析一下45到54这一年龄组的人。我们会立即看到,他们收入的中位数在1972到1999年间是相对稳定的,这与作者直白的结论完全相反。如果仅从这一系列数据选取两个数据点(即1972和1999),实际上得到的结论是这一年龄段人群收入的中位数一直保持稳定。但是,原来的图表对这一事实有一定的误导。当我们观察整段的数据后发现,事实上45到54这一年龄段的人群收入是有所下降,但是这种下降的趋势到2000年就停止了。


对于其它年龄群而言,他们收入的下降更加平稳,但是25到34这一年龄段的人群收入在克林顿执政时期有所反弹。


从这个图表中我们可以得到的另一个结论是,男性收入的中位数的不稳定取决于哪个政党执政。除了里根执政期间,当美国共和党执政期间收入都会下降;相反,除了奥巴马执政期间(基于现有数据得出这个结论尚为时过早),当民主党执政时收入都会上升。彭博社的分析没有考虑这些因素中的任何一个。


让我们继续探讨下一个由于图表引发的误导。


被截断的图表

作者原图的第二个问题是,图表的Y轴并不是从0开始的。这有什么问题呢?一个Y轴被截断(不是从0开始)的图表,会放大变化趋势。让我们看看重新使用原始数据并把Y轴的起始值设置为0会得到什么结果。


Y轴未被截断的图表


现在你得到什么结论?根据这幅图表,你会认为男性的收入在40年内持续下降?也许是的。这幅图表清楚地显示了收入的下降趋势,并且是收入的整体下降。但是,相比起彭博社的原始图表,下降的斜率并不显著。


根据这张新图表,我们还可以得出一些其它的结论。1972年到1993年间,25岁到34岁这一年龄段的收入持续稳定地降低;接着,在克林顿执政期间有所上升;然后,在布什执政期间又开始降低。为什么会这样呢?


对于35岁到44岁的人来说,他们的收入从1972年就稳定降低。对于45到54岁的人来说,收入在2000年以前相对稳定,并从2000年开始就稳定降低。

即便我们使用彭博社的两点数据,而将Y轴的起始值设置为0,其变化也并没有非常剧烈。


显示整个Y轴的原两点图


这仍然是一个可怕的图表。但一眼看去,使用同样的数据,图中收入的趋势似乎比彭博社的图显示的趋于平缓。


比例

我要讨论的最后一个问题是比例。作者选择去展现过去三十年的数据。那么问题在哪呢?实际上还有其它25年的数据被省略了。


这意味着,如果1972年和2012年的数据都是异常值的话,彭博社的原始图表会发生很大的失真。事实证明,1972年是美国男性收入中位数的最高点,从这个意义下,它确实是一个异常值。


让我们看一下从1947年开始的完整的统计数据:



1947


令人惊奇的是,从19471972年的平均收入呈现平稳地逐年增长。


那么,1972年发生了什么? 布雷顿森林体系和金本位制的结束?我不是一个经济学家,所以就不费劲猜测了。但是,我正给大家展示完整的数据,证明操作这些数字去支持不同的事实是多么简单,而这些事实可能描述了完故事,也可能不是。


现在,这些数据描绘出了一个非常不同的情景。可以看到,在战后如干年数值陡涨,随后就是平台期和下降期,对于各个年龄层来说其对应的时间和比率有所不同。这个时期发生了什么?又是什么引起这些变化?这里很难给出一个宽泛的概括。


同样值得关注的,是25-34这个年龄层的收入差异开始增大,这有可能与服务行业和白领工作的增长有关。


给出一个极端的观点:如果我们想把标题写成美国男性收入在过去的65年持续上涨。我们可以用只有两个点的图形来支持这个观点,就像彭博社的图表。我们只需用19472012这两个点:


1947


看起来非常棒!让我们鼓励一下自己(Let’s pat ourselves on the back)。世界如此美好,万物如此美好。


除了彭博社,我还在的其它很多出版物中看到这类图表,并且他们也不是唯一犯这种错误的。我写这篇文章不是为了特别针对他们,更多的是为了证明:操作数据来描述一个事件来佐证你已存在的观点是非常容易的。


类似的,匮于分析及不完整展示的数据会误导人们得到错误的结论。我已经试图在这里证明了两种情况,当你再看到像链接中彭博社那样的文章,你会更加警惕;并且,当你在利用数据讲故事是,你也会更加谨慎。


原文发布时间为:2015-02-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
XML 移动开发 小程序
抖音小程序开发 唤起收银台支付(可以选择支付宝APP支付或微信H5支付)
字节跳动也开放了小程序给商家接入,可以在旗下APP如抖音、今日头条、今日头条极速版等应用中即点即用,基于庞大的数亿用户量为其引流,帮助商家获取用户流量,销售商品,其模式和微信小程序差不多。
2526 0
抖音小程序开发 唤起收银台支付(可以选择支付宝APP支付或微信H5支付)
|
存储 API 网络性能优化
OpenStack的块存储卷管理
【8月更文挑战第25天】
373 4
|
12月前
|
机器学习/深度学习 人工智能 JSON
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
大型语言模型(LLM)的发展迅速,从简单对话系统进化到能执行复杂任务的先进模型。然而,这些模型的规模和计算需求呈指数级增长,给学术界和工业界带来了挑战。为解决这一问题,知识蒸馏技术应运而生,旨在将大型模型的知识转移给更小、更易管理的学生模型。Google Research 提出的“Distilling Step-by-Step”方法不仅减小了模型规模,还通过提取推理过程使学生模型在某些任务上超越教师模型。该方法通过多任务学习框架,训练学生模型同时预测标签和生成推理过程,从而实现更高效、更智能的小型化模型。这为资源有限的研究者和开发者提供了新的解决方案,推动了AI技术的普及与应用。
660 19
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
|
数据采集 消息中间件 并行计算
进程、线程与协程:并发执行的三种重要概念与应用
进程、线程与协程:并发执行的三种重要概念与应用
481 0
|
人工智能 自然语言处理 前端开发
OpenAI 12天发布会全解析 | AI大咖说
OpenAI近日宣布将在12个工作日内每天进行一场直播,展示一系列新产品和样品。首日推出GPT-o1正式版,性能大幅提升;次日展示Reinforcement Fine-Tuning技术,提高模型决策质量;第三天推出Sora,实现高质量视频生成;第四天加强Canvas,提升多模态创作效率;第五天发布ChatGPT扩展功能,增强灵活性;第六天推出ChatGPT Vision,实现多模态互动;第七天推出ChatGPT Projects,优化项目管理。这些新技术正改变我们的生活和工作方式。
1776 9
|
缓存 前端开发 JavaScript
前端性能优化:提升网页加载速度的10个技巧
【10月更文挑战第25天】在互联网时代,网页加载速度直接影响用户体验和搜索引擎排名。本文介绍了10个提升网页加载速度的技巧,包括减少HTTP请求、启用压缩、使用CDN、延迟加载非关键资源、优化图片、减少重定向、使用浏览器缓存、优化CSS和JavaScript、异步加载JavaScript以及代码分割。通过这些方法,可以显著提高网页性能,改善用户体验。
3045 5
|
缓存 网络协议
TCP累计确认和延迟确认傻傻分不清?
TCP累计确认和延迟确认傻傻分不清?
1190 1
|
存储 算法 C语言
用C语言开发游戏的实践过程,包括选择游戏类型、设计游戏框架、实现图形界面、游戏逻辑、调整游戏难度、添加音效音乐、性能优化、测试调试等内容
本文探讨了用C语言开发游戏的实践过程,包括选择游戏类型、设计游戏框架、实现图形界面、游戏逻辑、调整游戏难度、添加音效音乐、性能优化、测试调试等内容,旨在为开发者提供全面的指导和灵感。
684 2
|
人工智能 算法 安全
全球首位AI程序员诞生:对程序员的影响将会有多大?
全球首位AI程序员的诞生将深远影响程序员行业。自动化代码编写和优化将提升效率,减轻人工负担;AI能进行缺陷检测和错误修复,增强软件质量。AI还能促进知识传承和协作,成为程序员的智能导师。尽管可能影响部分传统编码职位,但也将创造新机遇,推动程序员向更复杂任务转型。随着AI技术发展,未来软件开发将加速自动化,同时也需关注伦理和安全问题。人类与AI的协同将塑造行业新未来!
|
JSON 文字识别 算法
C# 通过阿里云 API 实现企业营业执照OCR识别
C# 通过阿里云 API 实现企业营业执照OCR识别