从事数据分析及咨询工作,天天和数据打交道,搞过游戏数据分析,搞过金融,最近在搞零售,对基本的数据分析和技术有一定的理解,啥玩意都去理解一下,分析一下,不限范畴,只要自己能理解和搞得懂的。写过一本书《游戏数据分析的艺术》,写过专栏《小白学数据分析》,现在是个老白了。
描述性分析过程主要用于对连续变量做描述性分析,可以输入多种类型的统计量,也可以将原始数据转换成标准Z分值饼存入当前数据集。 基本统计量的计算与描述性分析简介 描述性分析主要是针对数据进行基础性描述,主要用于描述变量的基本特征。
观测量组到变量组的重组使数据由纵向格式转换为横向格式,步骤如下: 1)选择重组变量。在“重组数据向导”对话框中选择“将选定个案重组为变量”单选按钮,单击“下一步”按钮,弹出“重组数据向导--第2步(功步)”对话框。
不同的分析方法需要不同的数据文件结构,当现有的数据文件结构与将要进行分析所要求的数据结构不一致时,我们需要进行数据文件结构的重组,一般来说数据文件的结构分析为横向和纵向两种结构。 横向结构 横向结构的数据将一个变量组中的不同分类分别作为不同的变量,例如将A,B,C作用下的数值分别作为一个变量进行保存,每一个组是一个观测量,如图: 纵向结构 纵向结构的数据将一个变量组中的不同分类分别作为不同的观测量,例如将A,B,C组作用下的数值作为一个观测量,如图: 数据重组方式的选择 在菜单栏中一次选择“数据”|“重组”命令,打开如下所示“重组数据向导”对话框。
C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。
通过数据库导出交易数据时,经常是一些没有经过处理的交易原始数据格式,如下图: 然而我们希望DBA能够哪怕多写一条语句把记录上述记录写成如下的格式: 那么如果DBA不能满足我们的需求,就需要我们自己来使用Excel实现上述的表格,这里现列举两种方法。
SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中: 如超市商品如何摆放可以提高销量; 分析商场营销的打折方案,以制定新的更为有效的方案; 保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。
刚才在Excel小组有人问Excel问如何计算年龄(工龄)的问题,其实方法特别多,这里就说一个方法使用Yearfrac和int函数来计算。 语法 YEARFRAC(start_date,end_date,basis) 要点 应使用 DATE 函数输入日期,或者将函数作为其他公式或函数的结果输入。
看了小蚊子的博客关于Excel多条件匹配的文章,自己也尝试一下,发现实际操作还真的是会学到更多的东西。目前Excel多条件匹配的方法主要有三种: SUMPRODUCT函数,SUMIFS函数(注意不是sumif),高级筛选功能 1.SUMPRODUCT() 在给定的几组数组中,将数组间对应的元素相乘,并返回乘积之和。
昨天做了两个数据库表的连接查询操作,发现连接以后的记录与原始数据表里面的记录不一致,但是如果去一行一行的找这个不相同的位置,也不好找,尽管SQL能够解决这个问题,但是我想能否通过最简单的Excel来解决这个问题,也就是说把操作前后两列记录拿出来,进行对比,找出不一样的记录。
这几天在查询购买记录,其中一个需求就是查出来客户首次购买的产品时间和产品名称。说白了,就是在一段时间内,去取出来用户的第一次购买记录,再清楚一些就是在一堆重复的记录中取出第一条购买记录。 这个问题捉只让我困扰了一段时间,自己最存储过程还是不能驾轻就熟,所以还是得按照传统的方法来进行查询了。
最近这些天一直没有更新博客,实在是很忙,把女朋友送去工作,就延迟了几天的任务,不过好在事情办得很顺利,但是回来时,天气不好,飞机航班取消了,本来回到火车站想去买一张回来的卧铺,结果也没有,天津的天气不好,傍晚时开始下雨,在火车没有办法买了一张站票,是汉口到大连的K367,同行认识了一位丁哥,人很热情...
在学习MySQL手册时,看到根据天数计算访问量时,出现了BIT_COUNT()和BIT_OR()两个函数来处理天数计算的问题 所使用的表格信息如下: mysql> select year,month,day from t1;+------+-------+------+| year | mont...
在说MySQL的时间函数之前,先把MySQL的时间类型字段大概熟悉一下,这样对于MySQL时间函数的理解就更好啦。 MySQL有以下的时间类型: datetime '0000-00-00 00:00:00'date '0000-00-00'timestamp '0000-00-00 0...
之前也曾学习过MySQL,但是从来没有静下心好好的看看MYSQL的手册,现在觉得什么书都不如官方的手册有用,即使大家除了这样,那样的数,所有的知识点无非都是出自官方的教材,哎,自己以前太浮躁,只去看自己需要的那一部分,功力不足啊,还是得重新的看看书,学习学习。
今天将开始学习简单的摘要测量以及变量的测量级别如何影响应使用的统计量类型。使用demo.sav数据,资料来源于PASW_Statistics_18_Brief_Guide. 度量水平 不同的摘要测量适用于不同类型的数据,这具体取决于测量级别: 分类。
理(ˇˍˇ) 想~与现实总是有很大的差距,当你发现一切都是空白时,当你发现这一切都需要你积极争取和获得时,你就知道要做好一份工作是多么的困难,公司没有足够的条件和魄力来为我组建一个很好的平台来完成这项复杂的数据分析工作。
缺失的数据或者无效的数据经常会被我们忽略,比如当我们要开始做一些问卷调查的统计时,会发现被调查者不愿意回到一些问题,此时就会产生统计错误或者数据格式的错误,有效的过滤和标识数据,可以使我们对数据的分析提供更加准确的结果。
2011年2月13日,正是入职工作了,算起来有4个月左右的时间了,我还记得我入职时,选择的职位是数据分析师,从事游戏相关的数据分析工作。之前没有什么印象,因为我走的是技术流派,大学也没有好好玩过一个MMORPG,FPS游戏,几乎对游戏的认识是空白。