Python基于Apriori关联规则算法实现商品零售购物篮分析

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Python基于Apriori关联规则算法实现商品零售购物篮分析

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。

项目使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。

2.项目目标

现代商品种类繁多,顾客往往会因此而变得疲于选择,且顾客并不会因为商品选择丰富而购买更多的商品。繁杂的选购过程往往会给顾客带来疲惫的购物体验。对于某些商品,顾客会选择同时购买,如面包与牛奶、薯片与可乐等,但是如果当面包与牛奶或者薯片与可乐分布在商场的两侧,且距离十分遥远时,顾客的购买欲望就会减弱,在时间紧迫的情况下,顾客甚至会放弃购买某些计划购买的商品。相反,如果把牛奶与面包摆放在相邻的位置,既能给顾客提供便利,提升购物体验,又能提高顾客购买的概率,达到促销的目的。许多商场以打折方式作为主要促销手段,以较少的利润为代价获得更高的销量。打折往往会使顾客增加原计划购买商品的数量,而对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。而正确的商品摆放却能提醒顾客购买某些必需品,甚至吸引他们购买感兴趣的商品。

因此,为了获得最大的销售利润,清楚知晓销售什么样的商品、采用什么样的促销策略、商品在货架上如何摆放以及了解顾客的购买习惯和偏好等对销售商品尤其重要。通过对商场销售数据进行分析,得到顾客的购买行为特征,并根据发现的规律而采取有效的行动,制定商品摆放、商品定价、新商品采购计划,对增加销量并获取最大利润有重要意义。

请根据提供的数据实现以下目标:

1)构建零售商品的Apriori关联规则模型,分析商品之间的关联性。

2)根据模型结果给出销售策略。

3.项目流程介绍

本次数据挖掘建模的总体流程如图所示

image.png

购物篮关联规则挖掘的主要步骤如下:

1)对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。

2)对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。

3)在步骤2得到的建模数据基础上,采用Apriori关联规则算法调整模型输入参数,完成商品关联性分析。

4)结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。

4.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下 

某商品零售企业共收集了9835个购物篮数据,它主要包括3个属性:id、Goods和Types。属性的具体说明如表所示

编号

表名

属性名称

属性说明

0

Goods Order

id

商品所属类别的编号

1

Goods

具体的商品名称

2

Goods Types

Goods

具体的商品名称

3

Types

商品类别

数据详情如下(部分展示):

image.png

5.探索性数据分析

项目的探索分析是查看数据特征以及对商品热销情况和商品结构进行分析。

探索数据特征是了解数据的第一步。分析商品热销情况和商品结构,是为了更好地实现企业的经营目标。商品管理应坚持商品齐全和商品优选的原则,产品销售应基本满足“二八定律”,即80%的销售额是由20%的商品创造的,这些商品是企业的主要盈利商品,要作为商品管理的重中之重。商品热销情况分析和商品结构分析也是商品管理中不可或缺的一部分,其中商品结构分析能够保证商品的齐全性,热销情况分析可以助力商品优选。

5.1数据特征查看

探索数据的特征,查看每列属性、最大值、最小值是了解数据的第一步。查看数据特征,关键代码如下:

image.png

结果截图如下:

image.png

从上图可得,每列属性共有43367个观测值,并不存在缺失值。查看“id”属性的最大值和最小值,可知某商品零售企业共收集了9835个购物篮数据,其中包含169个不同的商品类别,售出商品总数为43367件。

5.2分析热销商品

商品热销情况分析是商品管理中不可或缺的一部分,热销情况分析可以助力商品优选。计算销量排行前10的商品销量及占比,并绘制条形图显示销量前10的商品销量情况,关键代码如下:

image.png

根据代码可得销量排行前10的商品销量及其占比情况,如下图所示: 

销量排行前10的商品销量及其占比

商品名称

销量

销量占比

全脂牛奶

2513

5.795%

其他蔬菜

1903

4.388%

面包卷

1809

4.171%

苏打

1715

3.955%

酸奶

1372

3.164%

瓶装水

1087

2.507%

根茎类蔬菜

1072

2.472%

热带水果

1032

2.380%

购物袋

969

2.234%

香肠

924

2.131%

image.png

销量排行前10的商品销量情

通过分析热销商品的结果可知,全脂牛奶的销售量最高,为2513件,占比5.795%;其次是其他蔬菜、面包卷和苏打,占比分别为4.388%、4.171%、3.955%。

5.3分析商品结构

对每一类商品的热销程度进行分析,有利于商家制定商品在货架上的摆放策略和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置,以方便顾客选购;或者是放在商场深处的位置,使顾客在购买热销商品前经过非热销商品所在位置,增加在非热销商品处的停留时间,以促进非热销商品的销量。

原始数据中的商品本身已经经过归类处理,但是部分商品还是存在一定的重叠,故需要再次对其进行归类处理。分析归类后各类别商品的销量及其占比后,绘制饼图来显示各类商品的销量占比情况,关键代码如下:

image.png

根据代码可得各类别商品的销量及其占比情况,结果如下图标所示:

通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬3类商品的销量差距不大,占总销量的50%左右,同时,根据大类划分发现,和食品类的销量总和接近90%,说明顾客倾向于购买此类商品,而其余商品仅是商场为满足顾客的其他需求而设定的,并非销售的主力军。 

各类别商品的销量及其占比

商品类别

销量

销量占比

非酒精饮料

7594

17.51%

西点

7192

16.58%

果蔬

7146

16.48%

米粮调料

5185

11.96%

百货

5141

11.85%

肉类

4870

11.23%

酒精饮料

2287

5.27%

食品类

1870

4.31%

零食

1459

3.36%

熟食

541

1.25%

image.png

各类别商品的销量占比情况

进一步查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示其销量占比情况,其关键代码如下:

image.png

根据代码清单可得非酒精饮料内部商品的销量及其占比情况,如下图表所示:

非酒精饮料内部商品的销量及其占比

 

商品类别

销量

销量占比

全脂牛奶

2513

33.09%

苏打

1715

22.58%

瓶装水

1087

14.31%

水果/蔬菜汁

711

9.36%

咖啡

571

7.52%

超高温杀菌的牛奶

329

4.33%

其他饮料

279

3.67%

一般饮料

256

3.37%

38

0.96%

可可饮料

22

0.29%

image.png

非酒精饮料内部商品的销量占比情况

通过分析非酒精饮料内部商品的销量及其占比情况可知,全脂牛奶的销量在非酒精饮料的总销量中占比超过33%,前3种非酒精饮料的销量在非酒精饮料的总销量中的占比接近70%,这就说明大部分顾客到店购买的饮料为这3种,而商场就需要时常注意货物的库存,定期补货。

6.数据预处理

通过对数据探索分析发现数据完整,并不存在缺失值。建模之前需要转变数据的格式,才能使用Apriori函数进行关联分析。对数据进行转换,其关键代码如下: 

image.png

结果输入如下:

image.png

7.构建Apriori规则模型

项目的目标是探索商品之间的关联关系,因此采用关联规则算法,以挖掘它们之间的关联关系。关联规则算法主要用于寻找数据中项集之间的关联关系,它揭示了数据项间的未知关系。基于样本的统计规律,进行关联规则分析。根据所分析的关联关系,可通过一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,就可以认为规则成立。Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,它是第一次实现在大数据集上可行的关联规则提取的算法。除此之外,还有FP-Tree算法,Eclat算法和灰色关联算法等。本项目主要使用Apriori算法进行分析。

关联规则指标说明:

  image.png


7.1商品购物篮关联规则模型构建 

本次商品购物篮关联规则建模的流程如图所示 

image.png

商品购物篮关联规则模型建模流程图

上图可知,模型主要由输入、算法处理、输出3个部分组成。输入部分包括建模样本数据的输入和建模参数的输入。算法处理部分是采用Apriori关联规则算法进行处理。输出部分为采用Apriori关联规则算法进行处理后的结果。

模型具体实现步骤:首先设置建模参数最小支持度、最小置信度,输入建模样本数据;然后采用Apriori关联规则算法对建模的样本数据进行分析,以模型参数设置的最小支持度、最小置信度以及分析目标作为条件,如果所有的规则都不满足条件,则需要重新调整模型参数,否则输出关联规则结果。

目前,如何设置最小支持度与最小置信度并没有统一的标准。大部分都是根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。本项目经过多次调整并结合实际业务分析,选取模型的输入参数为:最小支持度0.02、最小置信度0.35。其关联规则关键代码如下:

image.png

输出结果如下:

image.png

7.2模型结果分析

根据代码清单的运行结果,我们得出了26个关联规则。根据规则结果,可整理出购物篮关联规则模型结果,如下表所示: 

lhs

 

rhs

支持度

置信度

提升度

{'水果/蔬菜汁'}

-->

{'全脂牛奶'}

0.02664

0.368495

1.44216

{'人造黄油'}

-->

{'全脂牛奶'}

0.024199

0.413194

1.617098

{'仁果类水果'}

-->

{'全脂牛奶'}

0.030097

0.397849

1.557043

{'牛肉'}

-->

{'全脂牛奶'}

0.021251

0.405039

1.58518

{'冷冻蔬菜'}

-->

{'全脂牛奶'}

0.020437

0.424947

1.663094

{'本地蛋类'}

-->

{'其他蔬菜'}

0.022267

0.350962

1.813824

{'黄油'}

-->

{'其他蔬菜'}

0.020031

0.361468

1.868122

{'本地蛋类'}

-->

{'全脂牛奶'}

0.029995

0.472756

1.850203

{'黑面包'}

-->

{'全脂牛奶'}

0.025216

0.388715

1.521293

{'糕点'}

-->

{'全脂牛奶'}

0.033249

0.373714

1.462587

{'酸奶油'}

-->

{'其他蔬菜'}

0.028876

0.402837

2.081924

{'猪肉'}

-->

{'其他蔬菜'}

0.021657

0.375661

1.941476

{'酸奶油'}

-->

{'全脂牛奶'}

0.032232

0.449645

1.759754

{'猪肉'}

-->

{'全脂牛奶'}

0.022166

0.38448

1.504719

{'根茎类蔬菜'}

-->

{'全脂牛奶'}

0.048907

0.448694

1.756031

{'根茎类蔬菜'}

-->

{'其他蔬菜'}

0.047382

0.434701

2.246605

{'凝乳'}

-->

{'全脂牛奶'}

0.026131

0.490458  

1.919481

{'热带水果'}

-->

{'全脂牛奶'}

0.042298

0.403101

1.577595

{'柑橘类水果'}

-->

{'全脂牛奶'}

0.030503

0.36855

1.442377

{'黄油'}

-->

{'全脂牛奶'}

0.027555

0.497248

1.946053

{'酸奶'}

-->

{'全脂牛奶'}

0.056024

0.401603

1.571735

{'其他蔬菜'}

-->

{'全脂牛奶'}

0.074835

0.386758

1.513634

{'全脂牛奶', '酸奶'}

-->

{'其他蔬菜'}

0.022267

0.397459

2.054131

{'酸奶', '其他蔬菜'}

-->

{'全脂牛奶'}

0.022267

0.512881

2.007235

{'全脂牛奶', '根茎类蔬菜'}

-->

{'其他蔬菜'}

0.023183

0.474012

2.44977

{'根茎类蔬菜', '其他蔬菜'}

-->

{'全脂牛奶'}

0.023183

0.48927

1.914833

根据表中的输出结果,对其中4条进行解释分析如下:

1){'其他蔬菜','酸奶'}=>{'全脂牛奶'}支持度约为2.23%,置信度约为51.29%。说明同时购买酸奶、其他蔬菜和全脂牛奶这3种商品的概率达51.29%,而这种情况发生的可能性约为2.23%。 

2){'其他蔬菜'}=>{'全脂牛奶'}支持度最大约为7.48%,置信度约为38.68%。说明同时购买其他蔬菜和全脂牛奶这两种商品的概率达38.68%,而这种情况发生的可能性约为7.48%。

3){'根茎类蔬菜'}=>{'全脂牛奶'}支持度约为4.89%,置信度约为44.87%。说明同时购买根茎类蔬菜和全脂牛奶这3种商品的概率达44.87%,而这种情况发生的可能性约为4.89%。

4){'根茎类蔬菜'}=>{'其他蔬菜'}支持度约为4.74%,置信度约为43.47%。说明同时购买根茎类蔬菜和其他蔬菜这两种商品的概率达43.47%,而这种情况发生的可能性约为4.74%。

综合表以及输出结果分析,顾客购买酸奶和其他蔬菜的时候会同时购买全脂牛奶,其置信度最大达到51.29%。因此,顾客同时购买其他蔬菜、根茎类蔬菜和全脂牛奶的概率较高。

对于模型结果,从购物者角度进行分析:现代生活中,大多数购物者为“家庭煮妇”,购买的商品大部分是食品,随着生活质量的提高和健康意识的增加,其他蔬菜、根茎类蔬菜和全脂牛奶均为现代家庭每日饮食的所需品。因此,其他蔬菜、根茎类蔬菜和全脂牛奶同时购买的概率较高,符合人们的现代生活健康意识。

8.结论与展望

以上的模型结果表明:顾客购买其他商品的时候会同时购买全脂牛奶。因此,商场应该根据实际情况将全脂牛奶放在顾客购买商品的必经之路上,或是放在商场显眼的位置,以方便顾客拿取。顾客同时购买其他蔬菜、根茎类蔬菜、酸奶油、猪肉、黄油、本地蛋类和多种水果的概率较高,因此商场可以考虑捆绑销售,或者适当调整商场布置,将这些商品的距离尽量拉近,从而提升顾客的购物体验。


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1tHKQpWbz2TdWEji6kbbzGg 
提取码:3vhp
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
64 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
16天前
|
安全 前端开发 数据库
Python 语言结合 Flask 框架来实现一个基础的代购商品管理、用户下单等功能的简易系统
这是一个使用 Python 和 Flask 框架实现的简易代购系统示例,涵盖商品管理、用户注册登录、订单创建及查看等功能。通过 SQLAlchemy 进行数据库操作,支持添加商品、展示详情、库存管理等。用户可注册登录并下单,系统会检查库存并记录订单。此代码仅为参考,实际应用需进一步完善,如增强安全性、集成支付接口、优化界面等。
|
4天前
|
存储 监控 算法
员工电脑监控屏幕场景下 Python 哈希表算法的探索
在数字化办公时代,员工电脑监控屏幕是保障信息安全和提升效率的重要手段。本文探讨哈希表算法在该场景中的应用,通过Python代码例程展示如何使用哈希表存储和查询员工操作记录,并结合数据库实现数据持久化,助力企业打造高效、安全的办公环境。哈希表在快速检索员工信息、优化系统性能方面发挥关键作用,为企业管理提供有力支持。
33 20
|
13天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
20天前
|
算法 网络协议 Python
探秘Win11共享文件夹之Python网络通信算法实现
本文探讨了Win11共享文件夹背后的网络通信算法,重点介绍基于TCP的文件传输机制,并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享,通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求,接收文件请求并分块发送文件内容;客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程,帮助读者理解并优化文件共享系统。
|
3天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
3天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
|
13天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
14天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
|
14天前
|
算法
基于龙格库塔算法的锅炉单相受热管建模与matlab数值仿真
本设计基于龙格库塔算法对锅炉单相受热管进行建模与MATLAB数值仿真,简化为喷水减温器和末级过热器组合,考虑均匀传热及静态烟气处理。使用MATLAB2022A版本运行,展示自编与内置四阶龙格库塔法的精度对比及误差分析。模型涉及热传递和流体动力学原理,适用于优化锅炉效率。

热门文章

最新文章