为什么第三方数据报告总是不准?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 为什么第三方数据报告总是不准?

一到年底,就有各种第三方数据报告发布,呈现2018年互联网行业的发展状况,对2019年行业趋势进行洞察,理论上来说,这样的报告对于创业者、投资者、媒体都是重要的参考,也有利于企业了解行业和对手,对数据排名靠前的公司也是一种背书。


然而每一年我们都会发现,不同数据报告出入很大,给人感觉有些云里雾里。不只是年度报告,“第三方报告不准”,多年来一直困扰着互联网行业,特别是互联网企业。


image.png


第三方报告不准


近日看到两份Trustdata的报告,其中一些数据,就让人费解。


在Trustdata1月10日发布的《2018年12月移动互联网全行业排行榜》中,12月TOP200 App排行榜前10分别是:微信、QQ、支付宝、百度、wifi万能钥匙、淘宝、腾讯视频、抖音、爱奇艺和QQ浏览器。


image.png


不过在其15天后发布的《2018年移动互联网行业分析报告》中,2018年TOP20移动应用座次却发生了变化,分别是:微信、支付宝、QQ、淘宝、百度、wifi万能钥匙、腾讯视频、抖音、爱奇艺和QQ浏览器。支付宝超过了QQ,淘宝超过了百度和wifi万能钥匙。


image.png


会不会是第二份报告统计的是2018年全年数据?答案是否定的。Trustdata在报告中明确,采纳的是2018年12月的数据,相关App的MAU也发生了变化,有的甚至直接增加了两亿之多。


不只是数据前后有出入,关键指标与企业官方和其他第三方数据也不一样。


腾讯2018年三季度财报显示:QQ整体月活为8.026亿,就移动端而言,QQ智能终端月活账户为6.979亿。在Trustdata两份报告中,QQ月活却只有5.8亿,会不会是QQ四季度大幅下滑了2亿?答案是否定的,三季度QQ智能终端月活跃账户同比增长6.9%,年龄21岁以下的年轻用户活跃用户数和使用时间甚至还录得增长,不可能出现这样的断崖式下滑。


如果说企业官方公布的数据不具备权威性,我们可以再看看别的第三方数据。QuestMobile的《中国互联网2018年度大报告》在行业内传播最广泛,它的App排行榜显示,前十分别是:微信、QQ、支付宝、手机淘宝、爱奇艺、腾讯视频、百度、抖音、搜狗输入法和高德地图,跟Trustdata有不少出入,其中QQ12月的MAU是6.49亿,比TrustData的MAU多了近亿,跟腾讯三季度财报的QQ智能终端月活6.979亿非常接近。


我们再看手机数据。Trustdata第二份报告显示,中国智能手机出货量品牌占比,荣耀8.5%,小米12.6%,然而在赛诺的数据中,荣耀以5427万台销量超越苹果(5270万台)跻身中国市场TOP4,仅次于OPPO、vivo和华为。一份报告中,荣耀比小米强;另一份报告中,荣耀却远不如小米。


同一家数据机构发布的不同报告,一个产品同一个时间的关键数据有巨大出入,确实很罕见。但不同报告中,一个产品的数据差异巨大的例子却不胜枚举。“第三个报告不准”的争议,已经成为企业和第三方数据机构间的公开矛盾。


误差太大企业不满


在数据这件事情上,中国的数据机构与企业之间,以及企业与企业之间一直都处于这样的状态:一份报告出炉,某项指标第一、第二、第三之类的排序明确之后,企业要么会质疑数据机构统计数据的方法、结果或者动机,要么质疑竞争对手与数据机构“合作”进而导致数据不公平。


2016年张一鸣炮轰数据机构艾瑞就曾引发行业争议,艾瑞当时的数据显示今日头条日活用户为“数百万”,但今日头条称多家第三方数据机构报告中其日活跃用户数都超过三千万。


令人印象深刻的案例还有UC浏览器和QQ浏览器之间的“数据之争”,俞永福某次看到数据之后同样表示震怒,拍桌子指责某数据机构和腾讯,并找一堆媒体去澄清自己才是移动浏览器老大…这两家关于谁是移动浏览器“老大”的争夺,也持续了两三年。


2016年高德与百度也一直在争论究竟谁是互联网地图老大,高德甚至不断喊话表示希望通过“嵌入第三方代码”的方式一比高下;2017年,Trustdata发布《2017年上半年中国移动互联网行业发展分析报告》中,关于“共享单车榜单易主,ofo登顶,摩拜呈现负增长”的结论,受到ofo质疑,ofo与摩拜单车也有很长一段时间在争,究竟谁是共享单车第一。


类似的争议发生在搜索、电商、视频、音乐、外卖诸多业务之中…如果一个领域没有数据之争,只有几种可能:


  • 一是这个行业太小,数据机构报告都不屑于出;
  • 二是这个行业定局了,比如从来没有谁敢和微信来争第一;
  • 三是这个行业不再景气,共享单车、浏览器,现在就不争了。


当然,只要涉及到排坐次,就很难让所有人满意。如果说数据差距本身就很大,自然不会引发争议;如果说旗鼓相当,第三方数据机构往往难以分清孰优孰劣,如果一定要分清就会受到质疑。第三方数据机构就像球场上的裁判,有些球怎么吹都会挨骂。


不过,深层次来看,各大数据机构总给人数据不准的感觉,还有更多原因。


为什么报告会不准?


这一点罗超频道在《今日头条PK艾瑞:数据机构和企业为何总是争论不休?》一文中已有分析,今天看来很多原因依然没有得到解决,一些问题得到了解决。


第一、数据机构的结果如何得来的本身不够透明。


说某家公司市场份额这么多,使用时长这么多,是如何得出结论的?如果是抽样调查,样本选择是否科学;如果是自动化工具,覆盖用户是否足够大,原始数据和数据统计过程是否有漏洞…这些都是企业可能会质疑的点,所以数据源来自哪里,如何统计的,统计过程都要足够透明,经得起第四方、第五方的检验才有说服力。


前些年第三方数据机构公布报告,可能连数据源、统计方法都不会公布。如果监督企业数据却不公布自己的监督方法显然是不公平的。今天靠谱一点的报告基本都会公布统计方法和数据来源,如果不公布这些的报告,看看就好了。


第二,数据样本很难覆盖全量只能部分反映。


最了解一个App真实数据的,只有企业自己,第三方数据机构只能通过各自的方法,获取部分数据样本,再应用统计学等方法去推测整体数据,因此第三方数据只能不断接近真实水平,却不可能做到100%准确,数据获取能力决定着一家机构数据接近真实情况的能力。


不同机构获取数据方法不一。一些非主流数据机构直接采取抽样,甚至去应用市场爬下载量这样的“笨方法”来做报告,基本已没任何参考价值。主流数据机构也有不同办法,有的跟手机公司直接合作,有的跟运营商合作,有的给App提供技术服务顺便拿到一些数据,有的跟App合作,但不论哪种手段,都不能覆盖全部数据。


相对PC网站的开放性而言,移动时代数据统计更难,App是一个封闭的体系,它自己最清楚自己的数据,而且互联网公司都将数据当成资产,愈发不愿意公开数据给第三方,如果涉及到交易额之类的机密数据更是不可能公开。


正是因为此,第三方数据机构的数据,只有一定参考性,就像前文提到的TrustData,其在报告中表示,数据基础是自建的“日活超过1亿,月活超过3.2亿”的安卓用户样本集,再根据网民人口结构、地域分布、各移动应用iOS和安卓比例等因素建立模型计算所得,说白了还是统计学规则,既然是这样,也只能尽量准确,不能做到绝对准确。


image.png


第三,就算能拿到样本,谁能保证数据本身没问题?


不论是手机公司还是运营商,给到第三方数据机构的数据都是原始,需要进行去重、清洗、脱敏等等,这就要考量一个数据机构的大数据挖掘能力。


在有能力处理拿到的数据后,还要对数据进行“脱水”,甚至“反刷”,举个例子,如果一个第三方数据机构采取与App合作让后者接入自家SDK的方式来统计后者数据,那么企业会不会去“做数据”,来欺骗对应的数据机构?换句话说,如果数据机构让企业自己“上报”数据,企业就会老老实实给数据吗?不只是这样的情况,如果一个报告很重要,企业又知道报告统计方法,就很可能会想方设法去把数据做得漂亮,从数据源头造假,这基本上无解。


第四、不同机构数据指标口径严重不统一的问题。


前几年互联网公司合并的很多,经常出现合并之后两家公司市场份额加起来大于100%甚至200%的情况…这是因为之前两家公司可能找了不同的数据机构做报告,并且,这些报告采取了不同口径:有的统计的是渗透率,有的是用户市场份额,有的是活跃用户份额…总之,五花八门的指标让人眼花缭乱,精细化的统计并不是没有必要,但很多时候数据机构是为了给企业做一份能够拿到“第一”的报告而努力设计对应的指标和口径,结果就是,A企业用数学去跟B企业比语文,大家根本就不是在对比同一个指标。


数据不准的原因是多方面的,长期来看,数据只能尽量降低误差,然而却不能消除误差。既然是这样,是不是说,第三方数据报告没价值呢?答案是否定的。


如何看待第三方报告?


首先,数据不说谎,真实的数据对于行业来说有很大的价值。


企业了解行业和对手,创业者寻找创新机会,投资者发现项目,媒体报道企业,都要看数据。企业自己公布的数据不一定就是真实的,正是因为此,需要第三方数据机构来作为参考。


因此,我们不能否认第三方数据机构存在的价值,以及各种第三方报告的价值。


正是因为每一家数据机构的报告都不是绝对准确,所以数据关注者应该综合参考多家机构的数据。现在国内互联网行业比较主流的就有QuesMobile、APP Annie、艾瑞、trustdata、talking data,超级大公司也有自己的数据监测平台,比如腾讯灯塔、百度移动统计、阿里友盟等。


image.png


其次,机构要自律,只有尽量让数据接近真实水平才能走得远。


现在数据机构越来越多,如果你数据总是不靠谱,品牌没了、数据就没人信了,大家会选择去相信有品牌的数据机构,QuestMobile就是最近两年崛起的数据机构,不是因为数据100%准确,而是因为数据相对更加准确,口碑可以。


有一些机构数据不准也与商业模式有关系,因此数据机构要走出依赖报告本身的营收模式,而是探索类似于大数据服务、开发者服务、咨询服务、数据媒体化等新的商业模式。现在有的机构的报告数据真正做到了绝对客观,对数据本身敬畏,最终数据报告影响力就越来越大,所以每一次发报告,就可以成为品牌的广告机会,进而形成商业模式。


image.png


最后,机构要自强,拿到更多数据的同时强化大数据技术。


机构要合法合理地获取更多真实有效的样本数据,在移动时代特别是监管部门限制对用户数据获取后,这会越来越难,正是因为此,数据机构竞争会更激烈。


去年成功IPO,成为第三方数据服务商第一股的极光大数据,就胜在了数据获取能力上,其拥有开发者服务、广告服务和数据服务三大产品体系,覆盖极光推送JPush、极光IM、极光短信、极光统计、社会化分享,广告服务(极光效果通)助力实现精准营销,基于此可以与很多手机厂商合作交换数据,跟App开发者(含iOS平台)进行合作来搜集数据,最终形成了较强的样本数据覆盖。


image.png


机构还要不断强化自己的数据挖掘技术,应用日益成熟的AI、IoT等技术对数据进行广泛获取、深入洞察和价值挖掘,为行业创造价值。在我看来区块链技术的普及,也有望解决企业与机构间数据共享的矛盾,因为区块链的一大优势就是可以在保护隐私的同时进行数据分享应用。


大数据时代,我认为只有在数据和技术上形成核心竞争力的数据机构,才能走得更远。





相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
安全 网络安全
入网安全评估第三方报告怎么出
入网安全评估是网络安全风险评估的一种,简单来说就是在信息系统在接入互联网之前进行网络安全风险评估,提前确定系统的网络安全漏洞情况,是否存在高中威胁,是否符合入网安全评估的测评标准以及网络安全等级保护测评的标准。
|
9天前
|
存储 索引
打造个人知识管理系统:从信息收集到知识应用
【9月更文挑战第10天】在信息爆炸的时代,如何高效地管理和利用信息成为现代人面临的一大挑战。本文将介绍如何构建一个个人知识管理系统,包括信息收集、整理、存储和检索的全过程。我们将探讨使用数字工具进行信息管理的方法,并分享一些实用的技巧和策略。无论你是学生、职场人士还是终身学习者,这些方法都将帮助你更好地管理知识和提升学习效率。
25 10
|
供应链 安全
一键检测你的代码项目中的开源软件供应链安全风险,快速导出报告
一键检测你的代码项目中的开源软件供应链安全风险,快速导出报告
一键检测你的代码项目中的开源软件供应链安全风险,快速导出报告
|
监控 搜索推荐 数据挖掘
如何使用海关数据准确开发到客户
海关数据其实一直是外贸应用中最广泛的开发渠道,而且特别利好初学者,是企业开发新客户、监控同行、维护老客户以及决策参考的商战利器。当然,想通过海关数据精确找到客户,需要熟悉以下操作技巧。
216 0
程序人生 - 征信报告怎么查?社保证明如何拉?无房证明去哪开?最新查询指引,欢迎收藏(一)
程序人生 - 征信报告怎么查?社保证明如何拉?无房证明去哪开?最新查询指引,欢迎收藏(一)
161 0
程序人生 - 征信报告怎么查?社保证明如何拉?无房证明去哪开?最新查询指引,欢迎收藏(一)
|
安全 测试技术 网络安全
渗透测试流程&信息收集
渗透测试是一种评估方法,一种通过模拟黑客的攻击方式,来评估网站安全的方法 渗透测试流程分为7个阶段
174 0
|
监控 安全 大数据
你的汽车可能正在监视你!隐私信息和删除数据都能被检索,还能规避违法风险?
你的汽车可能正在监视你!隐私信息和删除数据都能被检索,还能规避违法风险?
151 0
|
安全 网络安全 数据安全/隐私保护
|
算法 安全 数据库
阿根廷最大社交网站Taringa遭遇大规模数据泄漏,超过2800万用户数据暴露
本文讲的是阿根廷最大社交网站Taringa遭遇大规模数据泄漏,超过2800万用户数据暴露,如果你有Taringa(也被称为“拉丁美洲的Reddit”)网站账号,那么请注意,你的账户详细信息可能已经在大规模数据泄漏事件中泄漏出来了,据悉,此次约有超过2800万用户的登录信息受到影响。
1494 0