复购分析实战 | Pandas遇到了大难题..(附40000+数据源和代码)(上)

简介: 在电商等消费场景下,复购率是最耳熟能详的指标之一了。上到平台、下到品牌、店铺,各种复盘分析一定绕不开复购率,今天我们就从实战的角度聊聊复购率。本文是Pandas实战系列的番外篇,是小z特意总结的案例,对于pandas操作是一个很大的考验。

初识复购率


实际业务经常会遇到以下场景:


“哈,我们的复购率同比/环比提升了XXX!”台下一片欣然..


“哎,近XX时间复购率有明显下降趋势”Boss脸色变得难看...


小z发现,复购率的讨论很容易陷入鸡同鸭讲,明面上都在说复购率,但实际连指标计算逻辑都是不同的:


  • 有留存角度的,A时间段购买人数,在其后B时间段重复购买人数占比
  • 有客户生命周期角度的,A时间段购买人数,在整个生命周期中,重复购买人数占比
  • 有截断角度的,A时间(这个时间一般比较长)段购买人数,在A时间段重复购买人数的占比
  • 还有自定义角度的....


各种眼花缭乱的复购计算方法,及其延伸的复购分析体系,以后会详细展开讲解。这次,我们先以一种计算逻辑切入,搞清楚如何用Pandas计算客户复购率。


复购率计算


本文采用一种比较简单,但非常考验Pandas技巧的口径来定义(可能是一些同学用pandas遇到的最大挑战)


复购率:一段时期内,购买两次及以上的客户占总人数的比重


比如最近半年,有10000个客户购买我们的产品,在这半年内,有1000个客户重复购买(购买2次及以上),那半年期复购率就是1000 / 10000 = 10%


有同学会说“订单去重之后,按照客户ID来groupby一下不就行了,有啥好讲的!”


Too young too simple~


一般拿到的订单是产品维度的,像这样:


image.png

一个客户同时购买了A、B、C三款产品,后台会生成三笔产品订单,如果直接按照ID来分组统计,这种连带性质的订单都会被统计,结果指标一定非常浮夸。


“那按照日期和买家ID来去重,把当天购买的行为归为一次,再按照ID来分组统计呗”


在一些场景中,这是相对简单的计算方法,但还是不够严谨,也没有充分触达到复购的本质。


这种计算方式很容易受到特定活动和特殊产品的影响:


  • 比如品牌在活动期连续三天搞大型秒杀活动,很多客户连续三天参与购买,这个口径下的复购率会大大注水。
  • 比如大促期间消费者抢购一波,结果第二天发现还想购买配套产品..


对于复购的分析,我们真正在意的是客户正常的消耗周期,比如一款脱毛膏,就算全身上下涂个遍,也够用15天,那A客户1号首次购买,在3号又来购买,严格意义上是不算复购的,只能算第一次购买的补充(连带购买)


我们应该根据业务实际情况制定一个规则,即客户前后购买行为间隔超过多少天,算作复购。


下面的实战场景中,这个值定义为2:即客户后一次和前一次购买时间间隔必须大于2天,才算复购行为。


举个栗子


概念晦涩,栗子清晰:


image.png


某客户,第一次购买时间是5月1日,随后5月2日又产生了购买行为,这里间隔时间只有1天,所以不算复购。


顺延下一次购买时间,5月3日和5月1日的间隔正好是2天,不满足我们大于2天算复购的定义,也不能算复购。


时间继续朝后推,5月6日和5月1日时间差整整有5天,这次购买间隔符合复购定义。记作该客户第一次复购,于是5月6日变成了新的锚点,以对比计算后续购买行为的时间差。


客户最后一次购买行为发生于5月9日,和最近的锚点5月6日有3天的间隔,亦满足我们对复购的定义,因此最后一次消费也算作复购。


总的来说,客户在5月1日-5月3日是一次购买行为,在5月6日的消费是第二次购买行为,5月9日则是第三次购买行为,整体复购了两次。


Pandas看了这个计算逻辑,感觉遇到了严峻的挑战....

相关文章
|
30天前
|
分布式计算 数据可视化 数据挖掘
Pandas数据应用:社交媒体分析
本文介绍如何使用Pandas进行社交媒体数据分析,涵盖数据获取、预处理、探索性分析和建模的完整流程。通过API获取数据并转换为DataFrame格式,处理缺失值和数据类型转换问题。利用Matplotlib等库进行可视化,展示不同类型帖子的数量分布。针对大规模数据集提供内存优化方案,并结合TextBlob进行情感分析。最后总结常见问题及解决方案,帮助读者掌握Pandas在社交媒体数据分析中的应用。
155 96
|
17天前
|
数据采集 存储 算法
Pandas数据应用:市场篮子分析
市场篮子分析是一种用于发现商品间关联关系的数据挖掘技术,广泛应用于零售业。Pandas作为强大的数据分析库,在此领域具有显著优势。本文介绍了市场篮子分析的基础概念,如事务、项集、支持度、置信度和提升度,并探讨了数据预处理、算法选择、参数设置及结果解释中的常见问题与解决方案,帮助用户更好地进行市场篮子分析,为企业决策提供支持。
60 29
|
28天前
|
数据采集 数据挖掘 数据处理
Pandas数据应用:金融数据分析
本文介绍如何使用Pandas进行金融数据分析,涵盖数据导入、清洗、转换等基础操作。通过处理缺失值、重复值及数据类型不匹配等问题,结合时间序列分析和大规模数据处理技巧,帮助读者掌握常见问题的解决方案。案例分析展示了计算每日收益率并绘制图表的具体步骤。
52 14
|
26天前
|
存储 数据采集 数据挖掘
Pandas数据应用:用户行为分析
本文介绍了如何使用Pandas进行用户行为分析,涵盖从基础概念到实际应用的多个方面。首先简要介绍了Pandas的安装与基本功能,接着详细讲解了数据加载、初步探索及常见问题(如数据缺失、重复记录和时间戳格式不统一)的处理方法。随后探讨了用户活跃度和路径分析等模式挖掘技巧,并总结了常见报错及避免措施。通过掌握这些内容,读者可以更高效地进行用户行为分析,提升产品设计和用户体验。
97 8
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
3月前
|
数据可视化 Python
Pandas 相关性分析
Pandas 相关性分析
42 1
|
3月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
4月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
206 0
|
5月前
|
数据挖掘 Python
Pandas数据分析实战(2):2023美国财富1000强公司情况
Pandas数据分析实战(2):2023美国财富1000强公司情况
65 0
|
5月前
|
数据采集 数据挖掘 Python
Pandas数据分析实战(1):2023美国财富1000强公司情况
Pandas数据分析实战(1):2023美国财富1000强公司情况
65 0