数据分析实战——EXCEL实现复购率计算

简介: 复购率指消费者对该品牌产品或者服务的重复购买次数,重复购买率越多,则反应出消费者对品牌的忠诚度就越高,反之则越低。

这是数据分析实战的第三篇(复购率计算篇),本文提供真实数据(脱敏),并梳理复购率计算思路和技巧,通过15分钟的阅读和实践,读者即可根据自己的订单数据灵活计算业务涉及到的复购率了。(实战数据在文末)


相关核心技巧:辅助列,数据透视表


ONE:什么是复购率?


对于销售尤其是快消品销售来说,不论线上还是线下,复购率这个指标都是重头戏,你说你的产品粘性很强,他说他的会员营销做的OJBK,我说我的内容营销对客户维系作用非常棒。


谁说了算?


复购率说了算!


我们先明确一下复购率的定义,官方说法(百科介绍):指消费者对该品牌产品或者服务的重复购买次数,重复购买率越多,则反应出消费者对品牌的忠诚度就越高,反之则越低。


粗读概念总是模糊的,提炼一下,复购率就是一段时间内,购买2次及以上客户人数占总人数的比重。这一步提炼揭示了我们计算复购率需要确定的3个点——一是一段时间(这里就是一个月),二是统计购买2次和2次以上对客户数,三是复购人数占总客户数(去重)比重。


TWO:怎么计算复购率?


第一步:数据概览


做数据分析,拿到数据后先撸(粗略看一下)一遍数据是一个极好的习惯,

我们从三个角度(订单数量、是否存在脏数据、数据逻辑)来看,不难发现:


1、实战数据一共有61072笔订单,时间涵盖了2018年7月1日-2018年7月31日,为期一月。


2、复购率计算是针对交易成功的客户,筛选交易状态,发现存在6088笔订单是用户退款,交易关闭了的,因此需要删除。


3、每一行数据只记录一个产品的交易信息,如单个客户一次性购买3个产品,系统会生成3笔(3行数据)订单信息。


第二步:数据清洗


我们先对刚才的脏数据(退款订单)进行清洗,这一列主要是和“交易状态”列相关的,选中该列,点击“排序和筛选”,


40.png


然后勾选中“付款以后用户退款成功,交易自动关闭的订单”:


51.png


样筛选出了所有脏数据,选中他们,


52.jpg


按一下“DELETE”键,和脏数据说拜拜,但是,刚才脏数据占据了很多行,现在这些行空了出来,将数据分的七零八落,为了规整数据,我们必须删除所有空行。


思路:通过定位某一列所有空单元格,再删除空单元格所在行即可:


选中A列,按住"CTRL+G",点击“定位条件”,选中“空值”:


53.jpg


这时我们已经选中了A列所有单元格,把鼠标移动到其中选中的一个,右键删除,然后选择“整行”,


54.png


至此,简单的数据清洗已经完成。(部分同学反映这次数据有点给力,有些操作可能会耗些时间,大家耐心等待)。


第三步:计算复购率


再次重申一下,从系统导出的订单,绝大多数情况,同一个客户购买了多个产品,会生成多笔订单(下单、付款时间几乎一致),更进一步,一个客户在一天内购买多次,比如上午9:00下了一单,下午15:00又下了一单,时间存在不一致,但从消费行为上看,算复购并不合理,我们在此定义,单个客户1天内下的多笔订单,不能算复购。


因此,要计算复购,需要对同一天的多笔订单进行去重,思考30秒。


有思路了吗?


辅助列是个好东西,重要的话说三遍:辅助列好,辅助列秒,辅助列它棒的呱呱叫。

一个用户在同一天下单时间一般是这样的“2018/6/1 00:12:12”,年月日时分秒的格式,如果我们用年月日来进行识别,是不是同一天内下单对多笔订单就能够去除呢?

Let's do it,先插入一列:输入YEAR()&MONTH()&DAY(),


55.png


公式的意思就是获取年份,月份,一个月第几天并合并成一个数据),接着就是去重,我们为了让“同一天内多次下单的客户算作一次购买”,把“买家会员名”和辅助列(标志用户哪一天购买)两个字段作为判断标准,进行去重。


操作:所有列,找到”数据“模块下的”删除重复项“选项卡,


56.jpg


记住,买家ID和辅助时间列两列都勾选,就是买家ID和时间辅助列都一样的情况下才会删除


57.jpg


58.png


至此,我们已经把同一天内重复购买的客户订单完全剔除掉了。


(注:这里单纯计算复购率,因此采用了比较粗暴的删除方式,以后将会介绍更好的方法。)


下面一步的关键是要统计所有用户的购买次数,数据透视表蠢蠢欲动了。


选中所有数据,插入数据透视表,我们想要得到每个客户的复购次数,所以把“买家ID”放在透视表的”行“里面,再把”买家ID“放在值里面,用计数的格式显示,就得到了每个客户的复购次数。


59.png


数据透视表显示区域是这样的:


60.png


后,我们只要统计出购买次数大于等于2次的人数,再用他们除以总人数,复购率就出来了。


用COUNTIF(区域,条件),选中数据透视表“买家ID”这一列,统计条件是“>=2",


61.jpg


结果是4628,再用COUNT统计总人数


62.jpg


可以发现,这段时间(7月份)的复购率就是16.93%(4628/27343),抛开产品和用户谈评价复购率高低就是耍流氓,这里主要讲述一种基于订单数据的通用计算法则, 暂不对指标本身做评判和讨论,后续会更新关于具体分析思维的案例。


喏,我们知道了这个月的复购率是16.93%,也就是说,在这个月,100个客户中会有近17个客户重复购买。


等等,让我们再重新念一遍:“在这个月,100个客户中会有17个重复购买”,基于这个假设,也就是说1000个客户中平均会有170个客户,10000个里面平均有1700个会重复购买。那他们重复购买的行为是怎么分布呢?(购买2次的有多少,购买3次、4次等等各有多少呢?)


SO EASY~


刚才的数据透视表“计数项:买家会员名”这一列已经统计出客户在本月的购买次数,我们可以用COUNTIF公式稍加汇总即可:


63.png


看来,复购用户占比会随着复购次数的增加而减少,有复购行为的客户中,大部分(67.39%)是购买了2次的,购买3次的用户占比16.81%,4、5、6次如上表。


敲黑板,思路和逻辑比会使用工具本身更加重要。


我们拿到订单(最重要的是买家昵称,付款时间两个字段)数据,先明确分析的目的(复购率),然后进行清洗(去掉脏数据),再为了得到结果创造条件(为了避免一天内同一客户多次下单的干扰,我们插入辅助列并去重),最终利用数据透视表进行数据汇总,基于汇总的结果,轻而易举(借助COUNT和COUNTIF)算出了复购率和复购分布。


文末附上实战数据:


链接:pan.baidu.com/s/1mtYxKt 密码:ifyn




相关文章
|
1月前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
|
2天前
|
机器学习/深度学习 数据挖掘 TensorFlow
解锁Python数据分析新技能,TensorFlow&PyTorch双引擎驱动深度学习实战盛宴
在数据驱动时代,Python凭借简洁的语法和强大的库支持,成为数据分析与机器学习的首选语言。Pandas和NumPy是Python数据分析的基础,前者提供高效的数据处理工具,后者则支持科学计算。TensorFlow与PyTorch作为深度学习领域的两大框架,助力数据科学家构建复杂神经网络,挖掘数据深层价值。通过Python打下的坚实基础,结合TensorFlow和PyTorch的强大功能,我们能在数据科学领域探索无限可能,解决复杂问题并推动科研进步。
12 0
|
1月前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
|
20天前
|
C# 开发者 Windows
WPF遇上Office:一场关于Word与Excel自动化操作的技术盛宴,从环境搭建到代码实战,看WPF如何玩转文档处理的那些事儿
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的重要组件,以其强大的图形界面和灵活的数据绑定功能著称。本文通过具体示例代码,介绍如何在 WPF 应用中实现 Word 和 Excel 文档的自动化操作,包括文档的读取、编辑和保存等。首先创建 WPF 项目并设计用户界面,然后在 `MainWindow.xaml.cs` 中编写逻辑代码,利用 `Microsoft.Office.Interop` 命名空间实现 Office 文档的自动化处理。文章还提供了注意事项,帮助开发者避免常见问题。
66 0
|
20天前
|
前端开发 Java JSON
Struts 2携手AngularJS与React:探索企业级后端与现代前端框架的完美融合之道
【8月更文挑战第31天】随着Web应用复杂性的提升,前端技术日新月异。AngularJS和React作为主流前端框架,凭借强大的数据绑定和组件化能力,显著提升了开发动态及交互式Web应用的效率。同时,Struts 2 以其出色的性能和丰富的功能,成为众多Java开发者构建企业级应用的首选后端框架。本文探讨了如何将 Struts 2 与 AngularJS 和 React 整合,以充分发挥前后端各自优势,构建更强大、灵活的 Web 应用。
34 0
|
20天前
|
SQL 数据采集 算法
【电商数据分析利器】SQL实战项目大揭秘:手把手教你构建用户行为分析系统,从数据建模到精准营销的全方位指南!
【8月更文挑战第31天】随着电商行业的快速发展,用户行为分析的重要性日益凸显。本实战项目将指导你使用 SQL 构建电商平台用户行为分析系统,涵盖数据建模、采集、处理与分析等环节。文章详细介绍了数据库设计、测试数据插入及多种行为分析方法,如购买频次统计、商品销售排名、用户活跃时间段分析和留存率计算,帮助电商企业深入了解用户行为并优化业务策略。通过这些步骤,你将掌握利用 SQL 进行大数据分析的关键技术。
36 0
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
解锁Python数据分析新技能,TensorFlow&PyTorch双引擎驱动深度学习实战盛宴
【7月更文挑战第31天】在数据驱动时代,Python凭借其简洁性与强大的库支持,成为数据分析与机器学习的首选语言。**数据分析基础**从Pandas和NumPy开始,Pandas简化了数据处理和清洗,NumPy支持高效的数学运算。例如,加载并清洗CSV数据、计算总销售额等。
48 2
|
2月前
|
机器学习/深度学习 人工智能 数据挖掘
从0到1构建AI帝国:PyTorch深度学习框架下的数据分析与实战秘籍
【7月更文挑战第30天】PyTorch以其灵活性和易用性成为深度学习的首选框架。
51 2
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
数据界的“福尔摩斯”如何炼成?Python+TensorFlow数据分析实战全攻略
【7月更文挑战第30天】数据界的“福尔摩斯”运用Python与TensorFlow解开数据之谜。
34 2
|
29天前
|
数据采集 数据挖掘 数据处理
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
31 0