从事数据分析及咨询工作,天天和数据打交道,搞过游戏数据分析,搞过金融,最近在搞零售,对基本的数据分析和技术有一定的理解,啥玩意都去理解一下,分析一下,不限范畴,只要自己能理解和搞得懂的。写过一本书《游戏数据分析的艺术》,写过专栏《小白学数据分析》,现在是个老白了。
早先在公司参加了一次付费渗透率的培训,后来觉得蛮有意思的,拿出来和大家分享一下,顺便说说我的看法。 在游戏运营数据分析中有一个非常重要的指标就是一个游戏的付费渗透率,所谓付费渗透率就是在一个游戏中,付费玩家占整个活跃玩家的比例,用数学表达式就是付费玩家数/活跃玩家数。
最近在重新整理日报,周报,月报的数据展现形式,越发觉得一份数据如何展现对于我们数据分析师的受众而言是非常重要的,数据是一种艺术,其原因之一在于如何把数字通过我们的处理变成一张漂亮的图形,意义有时候很重要,换句话,这也是体现一个人的态度和实力的渠道。
最近看了很多关于流失分析的文章,也构建了一些模型,流失这个问题看似有些让人抓不住一根主线来做,这几天也有几个朋友问我怎么来做流失的分析,但是最近工作变动,外加上很忙,就没有很好的跟他们说说这个问题。
这几天有点忙,所以没有很多时间把写的东西上传上来,这个拿出来是应一些做市场分析的童鞋的要求,我还记得这是我刚去金山工作时整理的,出处我忘记了,如果有谁知道,别忘记提醒我,这个算是扫盲吧,这几天会陆续上传一些新东西。
早些写过两篇关于关联分析的文章,去年也做过一个简单的案例。然而经过不断的实践和分析,我发现游戏道具的关联分析其实并不是很简单的一件事。可以说游戏道具关联分析相比传统的关联分析策略更加复杂,那么为什么难?这里简单说说我的想法。
早些时候写过关于购物篮分析的文章,其中提到了C5.0和Apriori算法,没有仔细说说这算法的含义,昨天写了一下关联分析的理论部分,今天说说关联分析算法之一的Apriori算法,很多时候大家都说,数据分析师更多的是会用就可以了,不必纠结于那些长篇累牍的理论,其实我觉得还是有点必要的,你未必要去设计算法,但是如果你掌握和熟知一个算法,这对于你如何驾驭和使用这个算法是很有帮助的,此外每个算法都有使用的局限性,比如空间和时间复杂度,使用条件约束。
关联分析的学习 在说关联分析之前,先说说自己这段时间的一些感受吧,这段时间相对轻松一些,有一些时间自己自己来学习一些新东西和知识,然而却发现捧着一本数据挖掘理论的书籍在一点一点的研读实在是很漫长,而且看过了没有什么感觉。
还记得我工作后接触的第一个理论就是长尾理论,后续在培训中又学习了蓝海战略、定位理论、权衡、免费等等。可以说我学到和了解了很多的理论。由于做游戏数据分析工作,因此像SPSS、SAS、Clementine、Excel都能熟练使用,包括很多的模型算法,比如RFM、C5.
最近大家都在讨论分列的操作,示例数据如下(红色的部分),有一组数据省市全部显示在一个单元格之中,而这样不利于我们进行一些数据分析,需要把省和市分割到两列中。对于以上的分列方法有很多种,这里就说说两种比较简单的分列这种数据的方法。
前段时间说过一些关于玩家生命周期的问题,其实那些有点大,有点虚,从宏观的角度了解我们此时此刻正在做的分析是属于那一部分,哪一个体系的,说实话,这是为了建立一种意识而要做的工作,玩家生命周期价值源于电信行业的客户生命周期管理和PLC(产品生命周期)的解读和应用,限于本人水平和能力因素,不够深刻,全面,在此请各位谅解,以后的内容会逐步深入到这个体系之下的很多细节的问题探讨,今天就和大家简单说说流失率。
什么是达克效应? 达克效应(D-K effect),全称为邓宁-克鲁格效应(Dunning-Kruger effect)。 它是一种认知偏差现象,指的是能力欠缺的人在自己欠考虑的决定的基础上得出错误结论,但是无法正确认识到自身的不足,辨别错误行为。
前几天,写过一篇关于相关分析的的文章,很多人都看到了并有很多人在咨询关于这篇文章的一些内容,相关分析是一类很有用的分析方法,如之前所提到的,相关分析由三部分组成,前几日的文章是讲了其中第一部分,第二部分是偏相关分析,第三部分就是复相关分析,说白了其实就是相关分析变量的多少来确定这三部分的。
昨天简单说了一下相关分析在充值购买失衡方面的应用,今天就接着昨天的话题,说一下回归分析(Regression Analysis),回归分析是研究一个变量(因变量)和另一个变量(自变量)关系的统计方法,用最小二乘方法拟合因变量和自变量的回归模型,把一种不确定的关系的若干变量转化为有确定关系的方程模型近似分析,并且通过自变量的变化来预测因变来预测因变量的变化趋势,在回归分析中两个变量的地位是不平等的,考察某一个变量的变化是依存于其他变量的变化程度,就是存在因果关系。
昨天简单的说过充值记录的分析方法,今天介绍一下使用相关分析,说说充值与购买的数据相关分析。在很多类型的游戏中,我们经常会做累计充值活动,然而并不是所有的累计充值活动都做的很好,而且某些类型的游戏不适合频繁作累计充值活动,究其原因,其中之一就是会造成充值与购买的失衡,通俗的说就是会存在持币待购的情况,我们希望正常或者良性的循环是充值购买为1:1,这点对于平衡消费,稳定消费结构很重要,当然了实际运营中我们也会面临很多的突发因素,比如游戏内容调整,游戏数值调整,版本IB刺激等等。
充值记录分析的方法有很多种,维度很多,今天就说说一个比较初级的分析方法,希望对于各位有一定的帮助和指导。 首先来看一下充值记录的格式,一般而言我们取到的数据都是交易格式(什么事交易格式这里不说了,大家应该都了解) 账户 充值额 充值大区 充值...
以下所说的统计学术语大家可以参考小蚊子blog的内容 (http://blog.sina.com.cn/s/blog_49f78a4b0102dwz9.html) 术语是帮助我们打开思路,通过多个角度对数据进行深度解读,数据分析师不能仅仅靠着对数据的一种感觉和敏感来进行数据分析,这样的主观性太强,在合理必要的情况下,使用前人已经总结和使用的方法往往对我们更有帮助,但也要记住不要陷入这个指标误区中,核心还在于人(但不是让你凭感觉作分析),在于人对待问题的思考方式,解决办法。
最近几天比较忙,大家都在问如何建立比较完整和有效的数据分析平台,说实话这个问题我考虑了很久,有效并有深度得数据挖掘与分析平台对于游戏产品的质量改善,人气、收益的提升,玩家资源的保有 ,客群分析非常有必要。
本来这算不上一篇文章,但是我仍旧写了,除了解决一个小问题还要说点其他的关于数据分析的想法,首先先解决一个小问题。 第一部分 问题描述:处理游戏帐号信息时发现有重复的帐号,比如帐号A有N个重复项,希望留下1个重复帐号,但是要把剩下N-1个删除重复帐号删除。
最近一直都泡在一些论坛,微博,搜索关于鄙人文章的评论和想法,在老林的Gameres上发现了moweiqi这位网友真的是非常的敬业和认真,很多转载于Gameres上的文章,他都有点评和说出他的想法,我由衷的表示感谢和敬佩,作为一个新进入游戏行业不算长的小学生,能得到如此之批评和建议,鄙人深感荣幸,也是促进我进步和改进的动力。
写在正文之前,想说几句话,今天是2012年3月16日,是我开博客以来的第9个月,9个月让我成长的非常迅速,这期间我收获了很多东西,认识了很多人,开了群,见了网站,持续的写博,从来没想到我的博客会有这么大的作用,从来没有SEO,从来没推广,从来没有任何宣传,我想到和我做的就是把我自己的成长纪录下来,把网游数据分析的点滴分享出来,当然我希望有人看,但是我毕竟不是高手,只是一个小白,小白只能是学习心得的纪录和整理,帮助自己理顺思路,很希望自己的文章有人看,因为那样就会有高手帮助我指点问题。
从今天开始,特开辟一个小专栏,题目暂定为小白学数据分析,鄙人不才,在数据分析的道路上走的崎岖坎坷,同时数据分析本身是一个多面和复杂的工作,要懂得理论(统计、概率、数据挖掘、算法、模型)更要懂得业务,懂得行业理论,还要有灵活多变的思维,想想还是很复杂和麻烦的,所讲内容不但是理论,不仅是数据,尽量把这些东西综合起来,立体的来看,鄙人水平有限,很多的内容是尝试和改进,参考了很多的材料,在木有高人指点和牛人帮助的情况下,我只能借助浩瀚的网络知识和自己的悟性,今天决心拿出来给各位主要是帮助大家和我一起进步。
今天和大家说说怎么来做一个复合的Excel图,以及我们要注意的一些地方。 说到Excel作图,基本可以满足我们的日常工作需求,不需要做什么太多的研究就能学会,作为DMA,Excel使用是基本的必备素质,但是很多刚刚入门的DMA对于作图的规范和惯例是不太清楚的,早先我也是自己在学一些东西,不全面,后来看了小蚊子的《谁说菜鸟不会数据分析》这本书,对于作图规范有了更深入的了解。
早先写了一篇关于玩家生命周期价值的文章,很多小白没,很多前辈问过我这个东西,说实话自己回头看了一下,大概没有接触产品,实际的运营过,估计不太很好的体会这个东西,也正是因为此,所以我答应了很多人会继续写下去,最近事比较多中间耽搁了一段时间,鄙人写的东西比较肤浅,但还有这么多前辈和新人期待,这是鄙人...
刚才在群里发现大家在讨论充值活动,促销活动,鄙人也有些感慨,这里面其实涉及到很多的东西,很多的学问,我就简单说说我的看法。在游戏IB方面,我们都知道去使用长尾理论和促销,也知道通过充值来拉动收入增长,但是这个过程中我们很容易把游戏的平衡性打破,付费IB的目的是让一些玩家来弥补时间和精力上的不足,同时...
在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛开设讨论区,欢迎各位讨论和提出建议。
近期很多人反映刚刚接手数据分析工作,不知道怎么来做一份数据日报,不知道取哪些数据,关注哪些重点指标,事实上对于新手而言最好的办法就是去参考前辈和看看行业一些日报的形式,但是核心在于你的产品是页游,还是app,还是手游,还是网站,还是开放平台,还是端游,或者是一款互联网应用,产品定位和属性决定了数据分析日报的形式和内容。
CCU实时在线曲线,可以算是一条非常简单的曲线,但是在这条曲线上我们可以看到很多的问题,CCU可以看到PCU,ACU等不同的信息,在CCU背后其实蕴藏了很多的信息,包括用户特征的提取,CCU作为一个基础数据,很多人没有在意,或者很多人在意了,但是没有方法去解释和分析,或者有高人不愿意和大家来分享,鄙人水平有限,从本人自己的理解上进行了一些分析,权当茶余饭后的谈资。
要说游戏中的搜索其实是得益于看了一篇小短文,对我的影响和感触很深,鄙人接触过一些产品,对于搜索有着一些看法,恰巧前段时间写过的一篇文章,在末尾给大家放了一张截图,显示了搜索功能在克服长尾方面的效果。
这些天好多人问我什么是IB(Item-Billing),OBT,CBT,PUR等等,今天这对这些问题写一个汇总,鄙人不才各方汇集资料和自己的理解,暂时为大家提供一些术语的解释和使用。 插一句题外话,几天前看到一个在游戏资源网上的一个评论,截图如下: 如果要回答这个问题,我想到一个最近看到的面试题目,大家先想想看怎么来解答,如果你能给出来正确的解答,并且明白反映的道理,那么你也就明白我该如何解释这位网游的疑问了。
“效率是以正确的方式做事,而效能是做正确的事。效率和效能不应偏废,但这并不意味着效率和效能具有同样的重要性。我们当然希望同时提高效率和效能,但在效率与效能无法兼得事,我们首先应着眼于效能,然后再设法提高效率”——————《有效的主管》 对于一个企业或者一个产品研发而言,不可缺少的是效能,而非效率。
这些天在看一些电信方面的经营分析的书籍和报告,感触颇多,某种意义上电信和网游用户的把握和分析有一些是相同的地方,单就从客户关系管理这一块其实可以做的很多,而在网游行业也可以试试引入“CRM”,只不过在网游行业引入的客户一定程度上是一群“虚拟客户”,也就是玩家,解释一下就是,在网游产品中,玩家的真实物理特征,比如用户地理学特征,是受到一定的制约,本身欺诈数据太多,不能像电信行业可以一定程度上把握这些数据。
引言 之前在看《营销管理》(菲利普﹒科特勒&凯文﹒莱恩﹒凯勒)一书,其中有一部分说到了产品生命周期营销战略,当中讲到了产品生命周期(product life cycle PLC),对我启发和影响很深,最近也在探讨游戏玩家的生命周期的问题,我的探讨主要是从玩家在整个游戏中的生命周期中为我们创造的价值角度考虑和分析,某种程度上我借用和改进了一些PLC的模式和定义。
玩家生命周期 早些时候,有位同行给了一个基于RFM的分析报告,但是不太明白上述用户中的3,4,5类为什么占比非常少,但是生命周期却非常长。 下面是我的一些观点(由于不清楚具体的产品,只知道大概的类别是社交游戏): 首先,使用了基于玩家充值的RFM分析,并把用户分成了8类,经过分析发现刚才上述的规律,那么我们具体来看。
为了严谨,今天把ARPU的定义和国外的ARPPU统一起来,本文中后续涉及到的ARPU叫法代表了ARPPU。 在很多国内外的游戏公司的财报中,我们经常看到ARPU这个指标,在游戏公司的产品运营数据分析中ARPU也是一个非常重要的数据指标,很多时候我们要和APA(付费用户数),PUR(付费比率)结合起来,衡量游戏整体的收益情况。
前些天,写了一篇游戏数据分析的内容,大家的反响效果不错,可能内容有些简陋,有些小白,的确,在游戏BI之外,可能BOSS或者旁观者只能去关注这些指标性的数据,并问一些问题,而这是对于运营人员最要命的,因为要在很短的时间内去反馈和分析这些指标数据背后的问题。
引言网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻都得利用数据作为驱动,然而过分的利用数据驱动业务则会陷入一些误区,进而会导致一些重大决策失误出现,数据终归是数据,有时候数据也会撒谎。
之所以想写这篇文章,是我许久以来一直想把Modeler和SPSS应用在目前的玩家数据分析和购买充值分析方面,游戏数据分析针对的群体其实和电信,互联网,电子商务很像,属于虚拟经济的分支,并且要通过数据化的手段,结合企业自身的BI建设及企业数据分析人员的研究解决一些棘手的问题。
一款网游产品从开始研发,到进入CB、OB甚至后期商业化运营过程中,始终离不开对整个产品的定位,这个定位是结合整个产品的生命周期而进行的,并且还在不断的在各阶段发生重定位,因为潜在的客户是不断的发生变化的。
昨天写了一片关于累计充值的文章,有的网友说这篇文章写的过于学院派,没有实际的内容来作为作证,或者说这种危害和后果紧靠文章措辞是说明不了问题的,今天就向大家具体的分析一下这种影响和分析的切入点。
最近在做版本数据时,开启了圣诞系列累计充值赠送活动,充值效果非常明显,玩家一窝蜂似的充值得到武器,得到服装,单日充值记录达到版本运营以来的顶点,然而接下来发现玩家的消耗不够明显,也就是说玩家手里剩余大量的钱没有出口,这个问题困扰了好长时间,前篇文章是从长尾理论角度出发来论证和说明这个问题,这篇文章将从累计充值本身出发,累计充值送东西,送什么,怎么送,怎么在FPS游戏里面进行实施和推广。
大概做游戏运营的同事们没几个人不知道长尾理论的,有关长尾理论的内容也不想多说什么,大家可以去百度百科学习一下,偶然在新浪博客看到李航博士一篇演讲词(http://blog.sina.com.cn/s/blog_7ad48fee0100z3iv.html),深有感触,最近在游戏的运营中也发现了这样类似的问题,刚开始也是苦于无法寻找答案,现在基本上了解了问题所在的主要原因。
昨天看了《失恋33天》,今天早看了一篇文章叫做《失业66天》,写的蛮有意思,作为从事游戏事业的人员颇有感触。 http://blog.csdn.net/zhao_yin/article/details/7050923 作为年轻人,我们苦心经营的无非两样——爱情和事业,拥有一份甜蜜的爱情能够为发展事业提供动力;而具有良好的事业更能为爱情提供保障,又或是成为追求爱情的资本。
最近在做一些社交SNS方面的数据分析工作,发现了一些与游戏运营相通的东西,社交游戏的某些指标和术语其实在大型的网游数据分析方面也可以使用。本质上他们代表的含义是一致的,只是在表现和分析的角度上不同而已。
这几天一直在看如何展开数据分析文章,大家写的都不错,说实话,针对如何展开游戏运营数据分析的指导真的非常少,作为每个公司的核心机密是不会拿到台面上与大家分享的,一段时期我上网看了很多的材料,当显示不能满足需求的时候,就要靠我们自己来挖掘。
看了小蚊子的书,里面有一个例子让我印象很深刻: 数据分析员对公司的某个业务进行了专项研究。每当完成专题分析向老板汇报分析结果是,老板首先问:“你的分析方法论是什么?将给我听听,我看分析报告就首先看你的分析方法论,如果分析方法论不正确或者不合理,那后面的分析结果也就没有必要看了,在一个不正确或者不合理的方法论的指导下,得到的分析结果是不可能正确的”。
IBM SPSS Statistics 18 版本后,新增加了客户直销模块,该模块的操作界面简单明了,结果报告分析清晰易懂,可以广泛的应用于电信,零售,银行,保险,证券,传媒,市场研究等行业领域,是为市场营销人员精心设计的用以提高直销效率,改善直销活动效果的工具。
保护Excel工作表可以帮助我们完成: 保护整个工作表,变成只读模式; 保护整个工作表,让部分区域编辑,部分区域锁定; 保护整个工作表,可以让特定的人完成特定区域的特定操作。 如下图所示,我们希望深蓝色的区域和其他区域是锁定不能进行编辑的,只有肉色的区域可以编辑输入数据。
我们在做游戏内的累积充值或者累计消费时,往往运营人员不会去兼顾或者考虑针对付费用户差异化的问题,也就是说当我们开出累积充值或者累计消费档的时候没有真实的根据用户的付费层次来进行合理布局。 而如何合理的布局消费和充值档位会照顾所有的用户消费群体,达到最佳的效果,为此我们可以把付费用户分为以下几个层面: 这也就是付费用户的金字塔模型,实际上我们的付费用户群体大致上可以说由以上的情况组成。
之前介绍了C5.0的内容,今天将描述超市购物篮内容(所购买的全部商品的集合)的虚构数据,以及购买的相关个人数据(通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(年龄,收入)刻画其特征的客户群。