师北宸:小机器成就大数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: “数据是下一代设计。不考虑数据的产品将被被时代所淘汰。”帮助客户检测与分析移动与web用户数据与行为的Mixpanel公司CEO Suhail Doshi如是说道。Mixpanel是硅谷最成功创业孵化器Y Combinator的2009年夏季毕业生,并于去年获得安德森·霍洛维兹(Andreessen Horowitz)领投的超过1000万美元的A轮投资,在Mixpanel官网最显眼处,写着:“Actions speak louder than page views.” 即“用户行为远比网站访问数更有说服力”。

“数据是下一代设计。不考虑数据的产品将被被时代所淘汰。”帮助客户检测与分析移动与web用户数据与行为的Mixpanel公司CEO Suhail Doshi如是说道。Mixpanel是硅谷最成功创业孵化器Y Combinator的2009年夏季毕业生,并于去年获得安德森·霍洛维兹(Andreessen Horowitz)领投的超过1000万美元的A轮投资,在Mixpanel官网最显眼处,写着:“Actions speak louder than page views.” 即“用户行为远比网站访问数更有说服力”。硅谷最具洞察力的孵化器和VC用钱投票出来的项目,点出了数据在移动时代的重要性,以及他们自己对数据的深刻理解。


访问数(独立访问数与总访问数)是传统互联网服务商最为看中的数据类型,比如门户完全基于流量变现,腾讯、百度以及奇虎360也仍处于粗放式利用数据阶段。根据IBM的报告,全球90%的数据是由过去两年内产生。根据IDC的计算和预测,2012年全球范围内产生了2.7ZB(相当于2^30GB,即1兆GB)的数据量,到2015年,将产生7.9ZB数据,而到2020年,讲产生35ZB之多的数据量,相当于2012年数据量的13倍。谁在驱动数据量的急速增长?


如果说过去两年中增长了占比90%的数据大部分仍然来自PC的话,未来的数据增长将更多来自可上网的移动设备,以及即将大量涌现的可穿戴式智能设备。智能设备的增长是一部分原因,更重要的原因来自未来人们日常中拥有的更多种类的设备,以及设备的更高的使用率,高使用率的驱动力来自于,更强的处理器,更高的存储容量,更快的网络条件,更廉价的网络资费,以及多屏多系统之间更为融合与互通的应用生态系统。


虽然中国4G网络还未开放,但就北美而言,4G网络带来的网络流量的增加非常明显。4G用户产生的数据量是非4G用户产生的数据量的20倍还要多。2012年全球只有不到1%的移动用户使用4G网络,但4G用户产生的数据量已经占移动数据流量的14%。随着中国这个全球最大智能手机市场对4G网络的推进——最近国务院总理李克强已经发话,年内将推动内地4G牌照的发放——移动设备将在未来一二年带来数据井喷。


数据量并不等于大数据,不过如果没有足够多的数据,大数据的“大”也就名不符实。我发在纽约时报中文网的《大数据时代》书评中粗暴的将大数据定义为很多很多的数据(IT术语日益增加且越来越玄乎,得为读者减负不是),而事实上,“大量的数据”(即“Volume”)只是大数据定义的一部分。一般而言,大数据还包括另外三个V:Variety(种类多样),Velocity(速度)以及远远未被充分认识及挖掘出来的最重要的V:Value(价值)。如果说前三个V是大数据的特征,那么最后一个V则是我们认识和理解大数据的目的。大数据挖掘的过程,就是高效收集、存储,并且管理、分析以及从中提炼价值的过程。数据无论大小,如果不去利用,那么它就是一文不值。——反而占据资源,提高成本。


以往PC时代,数据量更多发生在人与机器之间,即通过人主动操作生产的数据占主要部分。而移动时代的特点是,机器之间交流产生的数据占比将越来越多。比如过去一年以来开始流行的可穿戴式设备,比如Fitbit、Nike Fuelband、Pebble以及Google Glass甚至未来可能出现的iWatch,这些机器将制造越来越多的数据——记录你走路的步数,心率,睡眠质量,并自动与你的iPhone连接,在网络环境下传输到服务器,当你打开其它智能机器,这些数据又会再同步到你的电脑和平板上面。在整个量化自我的过程中,如果你还像我一样喜欢将个人数据都保存在Evernote上的话,仔细算算,这个过程将增长多少倍的数据量?人的时间和精力有限,几何级的数据增长,未来将发生在机器与机器通讯之中。


移动时代的入口在越来越小,应用一方面碎片化,另一方面各个碎片应用之间的功能连接度与数据互通程度也越来越紧密,互相依存、相互融合的趋势增加,这也为互联网带来更多式数据。相比于小数据时代的结构化数据,人们在更多碎片式应用中制造更多非结构化的数据。而如何从大数据中开采出更有价值的数据——用户行为,将是互联网服务商的下一个重要课题。


原文发布时间为:2014-02-06


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之如何将FTP文件传输到另一台机器
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
人工智能 大数据 新制造
谈谈大数据和人工智能的9个应用场景【人与机器共生】
大数据时代,以数据为基础的技术正在改变人类的未来。
谈谈大数据和人工智能的9个应用场景【人与机器共生】
|
机器学习/深度学习 分布式计算 算法
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
随着近年来深度学习技术的发展,各种机器学习平台也纷纷涌现或从专用走向了开源。到现在,一家科技巨头没有一个主导的机器学习平台都不好意思跟人打招呼。比如谷歌有 TensorFlow、微软有 CNTK、Facebook 是 Torch 的坚定支持者、IBM 强推 Spark、百度开源了 PaddlePaddle、亚马逊也在前段时间高调宣布了对 MXNet 的支持。 现在,腾讯也加入了这一浪潮。在 12 月 18 日于深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上,腾讯大数据宣布推出了面向机器学习的「第三代高性能计算平台」——Angel,并表示将于 2017 年一季度开放其源代码。
486 0
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
|
算法 大数据 数据挖掘
机器理解大数据秘密:聚类算法深度剖析
在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类算法进行了基础介绍,并通过简单而详细的例证对其工作过程进行了解释说明。
1459 0
|
存储 新零售 搜索推荐
让机器读懂用户——大数据中的用户画像
让机器读懂用户——大数据中的用户画像 摘要: 用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。
|
17天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
133 7