如何构建大数据层级体系,看这一文章就够了

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

我先介绍一下自己:

我之前是网易的,负责整个后台,主要是网易新闻。有三亿多的用户量,这么大量的用户肯定会有很多的数据,这些数据怎么去处理、呈现、规划,让它场景化。这就是我之前所做的工作。


今天结合我自己的工作和参考一些人资料做了一些汇总,分享给大家:


下图是我之前做过的东西



第一个是银河统计系统,这是我在网易负责的一个大数据的一个统计系统。不仅是能够统计网易新闻每天的安装量、使用次数,同时也接入了十几个网易研发的产品,做这一套系统是当时比较大的收获。


第二个是网易内容发布,也就是CMS。大家在网易新闻上看到的所有内容都是从这个系统发出。当时运营、编辑给我们的提议就是我们不仅要发的准,也要让大家能够看到最及时的信息,而且要快。所以这一块也是需要一定的数据挖掘和数据处理。


第三个红演圈App。负责整个产品的前端到后端,担任产品总监这样一个职位。


这一次分享的目的是让不同角色的人了解大数据时代用过什么,怎么做。


分享大纲


我个人把公司的创建大数据体系分成6大类,从低到高是逐渐升华的过程,接下来我会介绍每一层级怎么去做,怎么去建立大数据体系。


这是我的分享大纲



第一层,要有基础的平台;

第二层,有了数据之后我们怎么去呈现;

第三层,呈现出数据之后怎么群用;

第四层,在用的过程中怎么分门别类的去细化;

第五层,怎么将我们使用的东西推广到外面去,让别人也可以用;

第六层,也就是公司高层战略决策要用到的。



一、数据基础平台



首先,最基础的数据采集平台,这一块会牵扯到一些技术方面的内容。对于概要的内容大家有一点印象就可以。


其实大家不用知道每一块的含义是什么,如果你想知道的话可以自己去百度。我这里主要讲的是你要有数据采集,数据存储,之后怎么去处理,然后怎么去使用数据,最终让我们搜集的数据和运营出来的数据达到一个循环。


无论阿里也好腾讯也好,最底层的也是使用的这个架构。采集-->存储-->分析--->呈现


这个是腾讯的数据平台



下面是我14年收集的数据,什么叫大数据,从数据的量上就是很大。




接下来是阿里这一块。




阿里和百度有一点不同在于他所需要用到的东西指向商户,包括各种各样的小商家。


所以对于阿里来说,他对数据的应用会更细,偏向于电商领域。阿里数据数量级也是很大的。


接下来是数据基础平台的变迁



过去:

我们只是简单的跑一下技术报表,会一些搜索语句,导出来之后使用办公软件处理。这是最早的处理方法,简单,但是数据存储的成本很高。


现在:

更多的是会用到一些计算,把实体资源虚拟化成数据。


未来:

智能化的数据处理方式,更快、更完善。总之随着技术变迁,数据处理这一块也会不断的发展。



二、数据报表与可视化



这里先给大家一些例子,首先是阿里。



针对数据存储的可视化的界面。


优点:

数据平台结构很清晰,用各种不同的图表去呈现现在的数据资源的存量以及数据变化的情况;其次是个人与数的据关系明确,你可以看到自己所负责的数据处理的一个情况。


缺点:

数据报表太多了,看不过来。其次就是平台访问量不高。


这是阿里数据可视化的一个呈现。具体记录各个表的存储量有多少。




更细一点的话不仅是告诉大家存储的量有多大还要说明具体关系是什么。当我在查询的一个关键词的时候都可以呈现各个表之前的关系,适合于特别大量的数据存储。


再继续,这是针对他每一个表的详细介绍。



下面来说说腾讯


腾讯会把自己的系统分为不同的平台。不同的平台会有不同的用处。




从表中可以看到腾讯对数据重视度很高。他们的数据平台相对于阿里来说简单一些。


接下来说一说第三方的数据平台




如果有不清楚的话大家可以去查一下,一些大公司的话也会去做一些开放的数据平台,比如腾讯云分析、百度统计。阿里无线数独已经关掉了,无论大的平台还是小的都对数据的重视度很高。



三、产品运营与分析



接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。




现在一般我们运营,包括产品所做的工作都要对用户行为进行分析,通过不同的呈现方式得出不同的点击量来决策我们应该使用哪一种方案。


接下来是漏斗模型。就是走一个流程,从开始到最后用户流失的一个情况,以此来评价我们做的方案决策是否合适。


第三是收入效果的监控分析,主要是付费转化率、渠道效果数据。这会使用在和第三方的合作上,需要检测这个钱在花出去之后有没有用。


第四是业务长期健康分析。从用户流动模型、产品生命周期分析产品成长性和健康性。


最后一个是营销推广的一个实时反馈。运营的同学实在熟悉不过了。我们举办一个活动,最后我们要统计出来这个活动具体带来了多少用户,多少注册量。


接下来介绍一下怎么进行数据分析。




举一个例子,在我们做了一个新功能,怎么去验证这个功能是否合理?


事前要预测好,这个东西在上线之后会带来多少的用户,事先要有一个大概的预估。


事中,需要做到的是采集哪些数据,收集数据。比如检测一个点击按钮,用户点击了多少次,有多少用户点击了。如果检测的点多了就要用到用户的行为分析,通过用户点击的一系类的点,我们大概猜出来用户要实现什么样的功能。


最后,收集了数据之后,我们就要进行分析。用户在什么时候点击了多少次,消耗了多少的流量。通过分析我们有没有得到什么结论,包括用户是不是健康,数据是否安全,流程是否好的。这就是数据收集到之后我们要想的一些问题。


下面是YY的例子



不同的按钮,显示不同的名字可能会有多少人去点击。这个可以在web端和PC端可以很好的去实现。


漏斗模型



如果我们要做漏斗模型的话就要标识出要在哪一个部分得到一个怎么样的数据,对不同的阶段做不同的数据分析。千万不要从漏斗的点到漏斗的顶去分析,这是没有意义的。


用户的运营模型



将我们的数据模型化,通过一定的维度将用户拆分。什么样的数据属于什么样的用户。要将这些数据用来指导我们将来的工作。


这个是腾讯的用户模型分析



这是腾讯对不同的钻的会员做的分析。ppt上红色的用户喜欢QQ秀的衣服,愿意消耗多少点的Q币。通过不同运营的方法走不通的分支,去采集不同分支的数据来验证分支的走势是否真确,是否受欢迎。


这是某个公司每天持续发布的报表



做报表的目的就是每天做监控。一种是我们自己数据的变更,还有一种就是竞品数据变更。如果可以做到这两点的话对产品的迭代是有用的。


运营日报,主要是针对产品运营的人来说。



记录不同的活动带来的不同的数据。涉及用户留存,拉新等等。





又是大型的公司内部就会有专门的分析团队。





再介绍一下用的比较多的做数据分析工具,EXCEL和SPSS。我一般用EXCEL比较多一些。SPSS是面向很大数据的时候经常使用到,它数据挖掘的功能特别强大。




对于产品经理我们应该在数据运营中定位自己是一个什么样的角色。




从大的方面说,每一个公司对于产品经理的定位都至少要有一项基本技能,那就是数据的分析技能。但是从我的经验发现很多公司的产品经理在数据分析方面是非常非常弱的。



四、建设数据化的运营体系



接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。


怎么去建议我们的BOSS去建立一个数据化的运营体系?




规范很重要,这是数据采集的一个根本东西。规范制定失败最后造成一个什么样的结果,就是A和B说的一个数据指标指向的东西不一样,比如关于活跃用户的定义,这就导致出来的数据结果不一样。


接下来是展示的平台。这需要产品知道要采集什么数据,并且把需要的数据给开发。


再往上就是数据仓库,在收集数据之后放到仓库中,去分析用户的兴趣爱好。

最后是人。专业的人做专业的事。


举一个具体的例子:腾讯



这还只是一个黄钻的运营体系建设,再接下来时腾讯的用户生命周期。




不同的时间阶段,不同的用户处于不同的生命周期。




这是营销活动运营监测的一个数据。



五、数据产品





广点通,现在已经渗入微信了。在微信后面会有大量的数据处理,他会分析不同的客户。







阿里的数据更多的涉及到商家和所买的货物。




数据魔方,主要提供行业数据分析,店铺数据分析。




百度预测:预测了一些流感,城市旅游,以及世界杯,准确度挺高的。





司南:可以用来做用户画像,人群分析。






六、战略分析与决策



最后是对于产品经理的一些建议。





七、Q&A环节



1、微信有哪些是可以用于商业化变现的?

 

微信上面承载的东西很多,那就需要看他想往哪个方向发展。微信是一个平台,对于微信本身的商业化,它更多的是买流量,据我了解现在商业化的方式是微信朋友圈广告。


后续他要做商业化,可能要往电商上发展,商业号出来之后,本身不会参与到你的运营当中,可能是会收取一些租金。但是微信不可能去做微信商城的。


2、能不能通过抓取其他站点的数据来进行数据分析?


想法和实操还是有些差距的。别人的访问量高,并不一定是单纯的因为他文章写的好,可能还会有他的一些运营手段,以及他的一些人脉,这些都会导致他的站点是比较火的。


当然内容也是不可或缺的一部分。这个方案是可行的,但是在你实际的操作的过程中可能是不一样的。建议在实操的过程中多思考,不要认为别人怎么做自己就怎么做。在抓取到的数据上做一定过滤和加工。可以去监控竞争对手的内容,考虑他们为什么要这么做。


3、怎么去测试一个应聘者在数据、运营、产品上的能力?


说句不客气的话,我特别喜欢虐应聘的。一方面是基础的一些概念他一定要懂,哪怕你可以说错,但是不要没有听说过这个概念;另外一个方面就是基本的分析方法,比如做内容方面的,怎么去评价内容的好与坏,从细节处去提问应聘者。


4、如何对微信订阅号的用户做一个分析?


一个微信公众号后台有多少关注,将用户分层,什么年龄段,用什么手机。通过调查问卷,去询问我们的用户对于什么样的内容比较感兴趣以及愿意去推广什么内容。这是简单的做法,复杂的就要涉及到假设检验。


5、网易云音乐,如何运营社区良好的讨论氛围,对于社区中的不良言论该如何屏蔽与取舍?


UGC如何做到一个良性的循环。只要是有UGC的产品都是会越到这样的问题。关于如何过滤垃圾内容、提升社区质量,大家可以到我的简书(搜索申悦)上去看我翻译的十几篇连载的文章。


B站通过注册提问提高用户门槛来提升用户,知乎之前也是提高门槛来提升用户质量。增加用户投票机制,比如知乎通过反对和赞成过滤信息,或者通过屏蔽去除劣质的内容,让用户自己去帮你筛选优质信息。第三是系统提供一些功能屏蔽过滤劣质内容,最后就是去培养一些优质的用户,让他们源源不断的为社区提供优质的内容,这个就要涉及到社区激励的机制了。


6 我们在做用户画像的时候遇到大量的数据无法下手,还有就是我们应该侧重于用户的什么属性?


一方面自己做,另一方面给第三方平台做。用第三方平台做的话只需要将数据导入给他做分析;自家做的话,要根据用户的使用场景、产品的定位来分析。


不同领域的产品所做的是不一样的。对于用户做进一步的细分,简单的方式是将自身的用户给维护好,举个例子,你想知道自己的用户他们对那些板块感兴趣,那你就要将自己的用户资料给完善(比如性别,年龄),然后分析对这些板块感兴趣这一批人。

添加老师 微信 cdagood领取价值2999元数据分析资料!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
15天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
3月前
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
107 5
|
3月前
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
78 3
|
19天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
3月前
|
Java 大数据 数据库连接
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
63 2
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
|
3月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
77 0
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
568 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
70 2
|
2月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
123 1