Apriori关联算法讲解以及利用Python实现算法软件设计

简介: Apriori关联算法讲解以及利用Python实现算法软件设计

一、Apriori关联算法原理概述


1.1 关联分析


关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:

(1) 频繁项集(frequent item sets): 经常出现在一块的物品的集合。

(2)关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。


那些经常一起出现的物品集合,比如{啤酒,尿布,饼干}就是频繁项集中的一个例子,而根据上表也可以找到尿布->啤酒这样的关联规则。而我们是要通过关联分析大规模数据从而发现数据之间存在的有趣关系,那么问题来了,什么样的关系是有趣的呢?而这个有趣又是怎么定义的呢?我们可以通过支持度(support)和可信度(置信度confidence)来定义。一个项集的支持度指的是数据集中包含该项集记录所占的比例,上例中{豆奶}的支持度是2/5,{啤酒,尿布}的支持度是3/5;可信度是针对于像{尿布}->{啤酒}这样的关联规则来定义的,定义为:支持度({尿布,葡萄酒})/支持度(尿布)。


1.2 Apriori 原理


1.2.1 Apriori 算法流程步骤


收集数据:使用任意方法

准备数据:任何数据类型都可以,因为我们只保存集合

分析数据:使用任意方法

训练数据:使用Apiori算法来找到频繁项集

测试算法:不需要测试过程

使用算法:用于发现频繁项集以及物品之间的关联规则


1.2.2 使用Apriori算法来发现频繁集


Apriori 算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个物品的项集列表。接着扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度要求的集合会被去掉。燃尽后对生下来的集合进行组合以声场包含两个元素的项集。接下来再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集被去掉。生成候选项集。


1.2.3 从频繁项集中挖掘关联规则


频繁项集可以使用Apriori算法寻找,当然下来就是要找出关联规则了。我们知道,假设有一个频繁项集,它们之间就有可能有一条关联规则,即可以表示为:“…—>…”,但反过来并不一定成立(其中箭头左边对应的集合为前件,箭头右边对应的集合为后件)。在上一节,我们使用最小支持度来量化频繁项集,对应的,采用可信度来量化关联规则。其中一条规则p—>H的可信度定义为:support(P|H)/support§,为找到其中的关联规则,我们可以先生成一个可能的规则列表,然后测试每条规则的可信度,结合可信度的最小要求,得到关联规则。同寻找频繁项集类似,我们可以为每个频繁项集产生许多关联规则,这样就会有很多的关联规则产生。结合Apriori原理,如果某条规则不满足最小可信度要求,那么该规则的所有子集也就不满足最小可信度要求,据此我们可以减少需要测试的规则数目,简化问题。


详细的Apriori算法大家都已经讲的很详细了,给大家推荐一篇优秀的博文:

Apriori算法详解


二、Python实现(重点来了!!!)


为了方便用户便捷的应用Apriori算法计算,我计划搭建一个便捷的可视化操作界面。一个Apriori算法计算器,先带大家看看效果,若需完整代码请看链接:Apriori算法代码链接(大家私信我可免费发给大家)

1、实验数据



注:(1)搭建的平台有两个数据输入端口,一种是用户导入csv文件数据进行计算另一种的用户手动输入订单。故导入csv文件端口使用数据集①进行计算,手动输入端口使用数据集②进行计算。

(2)数据集①于打包文件中的“样例数据.csv”中。


2、实验说明及过程截图

按照实验要求,本次实验使用python中的tkinter模块搭建计算关联规则的平台可视化界面,平台名称为“5433关联规则计算平台”。平台主界面截图如下:


主界面主要介绍了平台使用计算关联规则的两个算法,分类是Apriori算法与FP-tree算法。Apriori算法简单且易于实现,是最具代表性的关联规则挖掘算法。但是Apriori算法需要频繁的对数据库进行扫描,这大大增长了计算时间。因此本次太在Apriori的基础上加入FP-tree算法计算通道,FP-tree算法秩序进行两次扫描便可以对所有可能的频繁项进行计数。

点击“从本地文件读入数据”按钮,跳转到读入数据界面。从文件读入数据界面截图如下:



可见用户只需选择文件路径平台即可自动将文件中的数据读入平台数据库。同时用户可根据数据集的需要设置最小支持度与最小置信度。点击“Apriori计算”或“FP-tree计算”即可进入计算界面。若数据集过大建议使用FP-tree计算。后即可进入结果展示界面查看计算结果。结果展示界面截图如下:



点击“返回主界面”后点击“用户手动输入数据集”按钮进入手动输入数据界面。手动输入数据界面截图如下:


用户每输入一条数据点击“插入数据”按钮即可将数据插入数据库里。在设置最小支持度与最小置信度后,点击“Apriori计算”或“FP-tree计算”即可进入计算界面。

3、实验结果

本次计算于2021年10月21日星期四进行。

首先进行数据集①的计算,利用数据导入功能将“样例数据.csv”中的数据导入平台数据库,并设置最小支持度为0.2,最小置信度为0.5。操作截图如下:


分别点击“Apriori计算”进行计算。计算结果截图如下:


相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
67 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
24天前
|
存储 缓存 监控
局域网屏幕监控系统中的Python数据结构与算法实现
局域网屏幕监控系统用于实时捕获和监控局域网内多台设备的屏幕内容。本文介绍了一种基于Python双端队列(Deque)实现的滑动窗口数据缓存机制,以处理连续的屏幕帧数据流。通过固定长度的窗口,高效增删数据,确保低延迟显示和存储。该算法适用于数据压缩、异常检测等场景,保证系统在高负载下稳定运行。 本文转载自:https://www.vipshare.com
117 66
|
5天前
|
存储 监控 算法
员工电脑监控屏幕场景下 Python 哈希表算法的探索
在数字化办公时代,员工电脑监控屏幕是保障信息安全和提升效率的重要手段。本文探讨哈希表算法在该场景中的应用,通过Python代码例程展示如何使用哈希表存储和查询员工操作记录,并结合数据库实现数据持久化,助力企业打造高效、安全的办公环境。哈希表在快速检索员工信息、优化系统性能方面发挥关键作用,为企业管理提供有力支持。
34 20
|
13天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
28天前
|
存储 运维 监控
探索局域网电脑监控软件:Python算法与数据结构的巧妙结合
在数字化时代,局域网电脑监控软件成为企业管理和IT运维的重要工具,确保数据安全和网络稳定。本文探讨其背后的关键技术——Python中的算法与数据结构,如字典用于高效存储设备信息,以及数据收集、异常检测和聚合算法提升监控效率。通过Python代码示例,展示了如何实现基本监控功能,帮助读者理解其工作原理并激发技术兴趣。
57 20
|
21天前
|
算法 网络协议 Python
探秘Win11共享文件夹之Python网络通信算法实现
本文探讨了Win11共享文件夹背后的网络通信算法,重点介绍基于TCP的文件传输机制,并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享,通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求,接收文件请求并分块发送文件内容;客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程,帮助读者理解并优化文件共享系统。
|
26天前
|
存储 算法 Python
文件管理系统中基于 Python 语言的二叉树查找算法探秘
在数字化时代,文件管理系统至关重要。本文探讨了二叉树查找算法在文件管理中的应用,并通过Python代码展示了其实现过程。二叉树是一种非线性数据结构,每个节点最多有两个子节点。通过文件名的字典序构建和查找二叉树,能高效地管理和检索文件。相较于顺序查找,二叉树查找每次比较可排除一半子树,极大提升了查找效率,尤其适用于海量文件管理。Python代码示例包括定义节点类、插入和查找函数,展示了如何快速定位目标文件。二叉树查找算法为文件管理系统的优化提供了有效途径。
50 5
|
26天前
|
存储 缓存 算法
探索企业文件管理软件:Python中的哈希表算法应用
企业文件管理软件依赖哈希表实现高效的数据管理和安全保障。哈希表通过键值映射,提供平均O(1)时间复杂度的快速访问,适用于海量文件处理。在Python中,字典类型基于哈希表实现,可用于管理文件元数据、缓存机制、版本控制及快速搜索等功能,极大提升工作效率和数据安全性。
62 0
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。

热门文章

最新文章