过快、过量、过度:三类数据驱动型决策中的常见问题(附大量资源)

简介:



在大数据的时代,很多公司通过采用数据驱动方式进行决策。在本文中我想谈一下我们在数据分析过程中三种常见失误:过快--急于求成、过量--图囵吞枣、过度--信息过载。

(注:本文附大量外链资料,建议先收藏再查看)


◆ ◆ 

过快:急于求成

还没找到实际问题就提出解决方案


不要担心在定位问题上花费太多时间。关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间。无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,都要确保你有花时间去了解项目的真正需求,而不是浪费了大量时间和精力后才发现方向错了。


别忘了,你所要解决问题的类型决定了对应的解决办法。比如在数据科学领域,建立模型前必须要了解该模型是为了加强调用(你的模型在多大程度上可以反馈特定数据),还是加强准确性(在所有正向预测中,有多少是准确的)。从最初开始定位项目目标有助于增强模型的准确性,降低漏报(针对调用)及报错(针对准确性)发生的可能性。


《哈佛商业评论》一篇相关文章推荐了以下方法帮助你解决真正问题

(相关链接:https://hbr.org/2012/09/are-you-solving-the-right-problem)


第一步:设定解决方案的需求

第二步:调整该需求

第三步:将问题情境化处理

第四步:写下问题陈述


另一个著名方法是MBA项目教授的“五问法”,一种由丰田集团开发的问题解决技巧,有助于通过重复拷问“为什么”来触及问题的根源。

(相关链接:https://en.wikipedia.org/wiki/5_Whys)


◆ ◆ 

过量:图囵吞枣

对于重要的和无关紧要的指标不做区分


生活在大数据时代,我们能通过大量工具追踪各类用户活动,拥有各种指标来定义每一个用户的行动。然而有多少指标是真正有用的?你能够通过观测这些指标来得出可行的方案么?


重要的是质量而非数量。比起追踪全部的数据,不如试着找出那些真正能够衡量产品健康程度并加以改善的关键绩效指标(KPI)。根据商业模式,公司目标和产品生命周期,决定哪些KPI是你需要关注的重点。


我推荐大家了解下Dave McClure的演讲,他将项目开发的指标分成了五类:


用户获取

用户激活

用户留存

用户推荐

收益增加

(相关链接:http://www.slideshare.net/dmc500hats/startup-metrics-for-pirates-long-version/2-Customer_Lifecycle_5_Steps_to)


大数据文摘后台回复“常见问题”下载Dave McClure的相关演讲ppt


另一个知名的极简方法是《精益数据分析》(Lean Analytics)中提到找到“第一关键指标”(详见下方链接)。

 https://growthhackers.com/videos/video-lean-analytics-one-metric-that-matters-omtm/


◆ ◆ 

过度:信息过载

试图发现根本不存在的模式


因为我们的直觉并不总是对的,而数据有时令人惊讶,尽管我们一直在寻求通过数据驱动进行决策,应用常识也很重要。要记住,模型世界并不是世界本身。你的模型存在假设和局限性,有时这些会将你引入歧途。不管模型告诉你什么,无论是肯定了你的预测还是告诉你特殊结果,你都要用自己的判断力,思考预测正确的概率以及信号的强烈程度。


有时候被发现的并不是“真相”。我们可能没有意识到,自己自己有时在无意识的寻找不存在的信号。通过了解行业的更多方面,竞争格局,宏观经济因素,周期性影响和其他因素有助于更准确的设定增长目标并依据数据得出科学的结论。例如,某些参与指标的下降不一定是消极型号,可能只是周期性影响,客户投诉的增加可以是一个健康增长的迹象,因为它体现了用户基数的上升。


“相关性不一定是因果关系”在统计学中,这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。:-)

原文发布时间为:2016-11-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
应用服务中间件 nginx Windows
windows下面Nginx日志切割
windows下面Nginx日志切割
611 0
windows下面Nginx日志切割
|
Web App开发 HTML5 移动开发
谷歌浏览器Chrome播放rtsp视频流解决方案
代码中的具体参数含义,大家可以移步这里: https://wiki.videolan.org/Documentation:WebPlugin/   找半天,HTML5的可以支持RTMP 但是无法播放RTSP,flash也止步于RTMP,最后同事推荐了个开源的好东东 VLC ,请教谷歌大神之后,这货果然可以用来让各浏览器(IE activex方式,谷歌、FF)实现播放RTSP视频流,那真是极好的~~ 废话不多说了附上参考文档和案例,大家自己看吧。
10947 1
|
4月前
|
机器学习/深度学习 算法 测试技术
NSA稀疏注意力深度解析:DeepSeek如何将Transformer复杂度从O(N²)降至线性,实现9倍训练加速
本文将深入分析NSA的架构设计,通过详细的示例、可视化展示和数学推导,构建对其工作机制的全面理解,从高层策略到底层硬件实现均有涉及。
412 0
NSA稀疏注意力深度解析:DeepSeek如何将Transformer复杂度从O(N²)降至线性,实现9倍训练加速
|
10月前
|
机器学习/深度学习 资源调度 计算机视觉
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
486 2
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
|
弹性计算 负载均衡 数据库
阿里云轻量应用服务器全面解析:收费标准、产品优势及适用场景
在云计算领域,阿里云凭借其强大的技术实力和丰富的产品线,为用户提供了一系列高效、便捷的云服务器产品。其中,轻量应用服务器(Simple Application Server)作为面向个人开发者、中小企业等用户的入门级云产品,凭借其易用性、高性价比以及一站式服务体验,受到了广泛的欢迎。本文将全面解析阿里云轻量应用服务器的收费标准、产品优势以及适用场景,帮助用户更好地了解和选择这一产品。
阿里云轻量应用服务器全面解析:收费标准、产品优势及适用场景
|
存储 关系型数据库 MySQL
MySQL vs. PostgreSQL:选择适合你的开源数据库
在众多开源数据库中,MySQL和PostgreSQL无疑是最受欢迎的两个。它们都有着强大的功能、广泛的社区支持和丰富的生态系统。然而,它们在设计理念、性能特点、功能特性等方面存在着显著的差异。本文将从这三个方面对MySQL和PostgreSQL进行比较,以帮助您选择更适合您需求的开源数据库。
637 4
|
存储 Cloud Native 关系型数据库
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
614 3
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(1)
|
API Docker 容器
容器镜像解析问题之使用go-containerregistry在代码中解析容器镜像如何解决
容器镜像解析问题之使用go-containerregistry在代码中解析容器镜像如何解决
234 0
|
负载均衡 算法 网络协议
SLB基本概念
SLB基本概念
932 3
记一次redis主从切换导致的数据丢失与陷入只读状态故障
最近一组业务redis数据不断增长需要扩容内存,而扩容内存则需要重启云主机,在按计划扩容升级执行主从切换时意外发生了数据丢失与master进入只读状态的故障,这里记录分享一下。