数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据

简介: 数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据

全文链接:http://tecdat.cn/?p=32150


随着大数据时代的来临,如何从海量的存储数据中发现有价值的信息或知识帮助用户更好决策是一项非常艰巨的任务点击文末“阅读原文”获取完整代码数据


数据挖掘正是为了满足此种需求而迅速发展起来的,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。由于大数据技术的发展,零售企业可以利用互联网收集大量的销售数据,这些数据是一条条的购买事务信息,每条信息存储了销售事务的处理时间,顾客所购买的商品、各种商品的数量以及价格等。如果对这些历史数据进行分析,则可以对理解分析顾客的购买行为提供有价值的信息。


数据建模


数据来源

本次分析的数据来自电商网站交易数据文件查看文末了解数据免费获取方式

指标选取

本次分析一共选取了17个指标600个样本,分别是:ID号、平均购物额度、购物总次数、交易成功次数、信用等级、购物积分。

指标介绍

(1)ID号:购网网站上的网购客户ID ;

(2)平均购物额度:网购客户平均的网购服务的金额;

(3)购物总次数:网购客户的每个月购物次数;

(4)交易成功次数:网购客户的交易成功次数;

(5)信用等级:网购客户的购物信用等级;

(6)购物积分:网购客户购物的积分;

(7)Pincome:个人年收入(万元)

(8)Hincome:家庭年收入(万元)

(9)Age:年龄

(10)Gender:性别(0:女;1:男)

(11)Car:家庭拥有汽车的数量

(12)Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

(13)Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)

(14)People:家里人口数量

(15)Children:家里未成年人数量

(16)Housing:房屋拥有类型(0:租房;1:买房)

(17)Area:房屋居住面积(平方米)

数据审核

由上表,可得:本次分析的数据都是有效的,不存在缺失值。


点击标题查阅往期内容


R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化


01

02

03

04


描述性统计量


由上表,可得:月服务、年龄、居住时间、收入、工作时间、家庭人数、长途距离、免费通信这8个变量的均值分别为:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。同时,这8个变量之间存在较强的线性相关性,说明变量之间存在严重的多重共线性,可以考虑对变量进行降维后在进行分析。

 

数据归一化

在进行分类之前,为消除量纲的差别,首先对属性进行归一化处理。

 

Weka数据挖掘流程


数据挖掘一般是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,是一种决策支持过程。它实现的过程大致可分为:问题定义、数据收集和预处理、数据挖掘、算法执行,以及结果的分析和评估。

(1)问题定义

数据挖掘的目的是从海里数据中挖掘有效信息,帮助用户更好决策。因此,在数据挖掘之前需定义明确的挖掘目标,明确数据挖掘目的。

(2)数据收集和数据预处理

数据准备又可分为三个子步骤:数据收集、数据预处理和数据变换。数据收集是指收集所有与挖掘业务对象相关的外部和内部数据,从获取的原始数据中,选择出需要挖掘的信息数据,建立挖掘原始数据库。在建立的挖掘原始数据库中,其数据可能是不完全的、有噪声的、随机的、复杂的,数据预处理数据就要对数据进行过滤,清洗掉不完全的、有噪声的数据,为下一步的分析工作做准备。数据转换是指格式化数据,并将其加载到适合分析的存储环境中,形成最终的挖掘数据库。

(3)数据挖掘

算法执行阶段主要根据对问题的定义明确挖掘的任务或目的,数据挖掘是指选择合适的挖掘算法,对转换过的数据库进行有效挖掘,此阶段选好挖掘算法是关键。

(4)结果分析和评估

数据挖掘阶段发现的模式,经过评估,可能存在冗余或无关的模式,这时需要剔除;模式也有可能不满足用户要求,这时则需要整个发现过程回退到前一个阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等。

 

模型的实际应用


研究数据说明

本文数据来源于平台后台数据库中历史交易信息,包括网购相关信息以及网购用户信息等。

经过数据筛选梳理,最终研究的样本包括999条网购列表。其中,248审核未通过的有条;209条是网购放弃;542条成功网购,169条已还完网购。成功交易总额达3090.93万元。


网购用户关联规则算法分析设计


本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

(1)Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的数据流程图如图 1 所示。

1 商品关联规则 Apriori 算法挖掘流图

关联规则模型Apriori模型参数设置

通过格式转换, 设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出最有价值的10条关联规则,如图所示。生成的10条规则如下所示:

1. 交易成功次数=1 469 ==> 购物总次数=1 465    <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25)
 2. 交易成功次数=1 房屋状况=1 423 ==> 购物总次数=1 419    <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64)
 3. 是否有小孩=1 房屋状况=1 365 ==> 购物总次数=1 345    <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16)
 4. 是否有小孩=1 397 ==> 购物总次数=1 375    <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15)
 5. 房屋状况=1 545 ==> 购物总次数=1 508    <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96)
 6. 购物总次数=1 是否有小孩=1 375 ==> 房屋状况=1 345    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11)
 7. 是否有小孩=1 397 ==> 房屋状况=1 365    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1)
 8. 购物总次数=1 560 ==> 房屋状况=1 508    <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97)
 9. 交易成功次数=1 469 ==> 房屋状况=1 423    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)
10. 购物总次数=1 交易成功次数=1 465 ==> 房屋状况=1 419    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

分析及建议: 通过结果可以清晰的看到交易次数较多的顾客购物成功次数比较多,另外是否有小孩、是否有房屋对顾客是否购物成功次数也有关联,建议网站可以加大对这些用户的推荐购买力度,由上述结果可知,同时购物且成功的用户占总用户的的90%,有房屋的用户成功购物分别占总订单数的91%,有小孩的人有91%会网购, 房屋面积越大,网购次数越高,由此可见,房屋、网购、是否有小孩、网购成功次数这几个变量关联度较高,可以对这些用户进行广告策略投放,从而增加用户网购的成功率。

Associator Model
     
    Apriori
    =======
     
    Minimum support: 0.55 (330 instances)
    Minimum metric <confidence>: 0.9
    Number of cycles performed: 9
     
    Generated sets of large itemsets:
     
    Size of set of large itemsets L(1): 4
     
    Size of set of large itemsets L(2): 5
     
    Size of set of large itemsets L(3): 2

 

结论与展望


数据挖掘中的关联规则侧重于不同对象之间的联系,本文讨论了关联规则挖掘在用户网购策略中的应用。利用WEKA软件,通过实例分析了频繁项集及关联规则生成的过程,采用Apriori算法对数据分别进行了解析挖掘,针对挖掘结果提出了相应的建议,对电商网站的发展有着到重要的现实的意义。  

相关文章
|
29天前
|
存储 算法 安全
基于哈希表的文件共享平台 C++ 算法实现与分析
在数字化时代,文件共享平台不可或缺。本文探讨哈希表在文件共享中的应用,包括原理、优势及C++实现。哈希表通过键值对快速访问文件元数据(如文件名、大小、位置等),查找时间复杂度为O(1),显著提升查找速度和用户体验。代码示例展示了文件上传和搜索功能,实际应用中需解决哈希冲突、动态扩容和线程安全等问题,以优化性能。
|
2月前
|
缓存 算法 搜索推荐
Java中的算法优化与复杂度分析
在Java开发中,理解和优化算法的时间复杂度和空间复杂度是提升程序性能的关键。通过合理选择数据结构、避免重复计算、应用分治法等策略,可以显著提高算法效率。在实际开发中,应该根据具体需求和场景,选择合适的优化方法,从而编写出高效、可靠的代码。
44 6
|
3月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
86 1
|
4月前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
15天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
15天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
110 68
|
25天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
2月前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
188 80
|
26天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
|
26天前
|
算法
基于龙格库塔算法的锅炉单相受热管建模与matlab数值仿真
本设计基于龙格库塔算法对锅炉单相受热管进行建模与MATLAB数值仿真,简化为喷水减温器和末级过热器组合,考虑均匀传热及静态烟气处理。使用MATLAB2022A版本运行,展示自编与内置四阶龙格库塔法的精度对比及误差分析。模型涉及热传递和流体动力学原理,适用于优化锅炉效率。