【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

简介: 【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

需要代码请点赞关注收藏后评论区留言私信~~~

朴素贝叶斯分类

朴素贝叶斯(naïve Bayes)分类是基于贝叶斯定理与特征条件独立假定的分类方法。

设试验E的样本空间为S,A为E的事件,B_1,B_2,⋯,B_n为S的一个划分,且P(A)>0,P(B_i)>0(i=1,2,…,n),则贝叶斯公式为:

P(B_i)称为先验概率,即分类B_i发生的概率,它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时,最有可能的分类B_i。

设样本集为S={s_1,s_2,…,s_m},每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。

朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率,然后基于它们,对给定的测试样本x,利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。

特征条件独立假定,是指假定样本的各个特征是相互独立的,互不关联。这个假定显然是不符合实际的,但它可以在大数据量、大特征量的情况下极大简化计算,使得贝叶斯算法实际可行。从实际应用情况来看,朴素贝叶斯分类也取得了不错的效果。

1:多项式朴素贝叶斯分类器

多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中,出现指定次数正面(或反面)的概率是二项分布。将二项分布中的两种状态推广到多种状态,就得到了多项式分布。

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
fit(X, y, sample_weight=None)
predict(X)
predict_proba(X)

其中,alpha称为平滑值,它用来避免在估计条件概率时出现值为0的情况,它的取值大于0,当等于1时,称为Laplace平滑。

当假定特征取值符合0-1分布时,多项式分类器 退化为伯努利朴素贝叶斯分类器,即伯努利朴素分类器中,特征只能取两个值,它在某些场合下比多项式分类器效果更好一些,使用伯努利分类器之前,需要先将非二值的特征转化为二值的特征

部分代码如下  用来预测相亲问题

# 训练样本集
blind_date_X = [ [35, 176, 0, 20000],
                 [28, 178, 1, 10000],
                 [26, 172, 0,],
                 [29, 173, 2, 20000],
                 [28, 174, 0, 15000] ]
blind_date_y = [ 0, 1, 0, 1, 1 ]
# 测试样本集
test_sample = [  [24, 178, 2, 170],
                 [27, 176, 0, 25000],
                 [27, 176, 0, 10000]  ]
# 多项式朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))

2:高斯朴素贝叶斯分类器

当特征值是连续变量的时候,可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。

代码如下

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))
>>> [1 0 1]
print(clf.class_prior_) # 标签的先验概率
>>> [0.4 0.6]
print(clf.class_count_) # 每个标签的样本数量
>>> [2. 3.]
print(clf.theta_) # 高斯模型的期望值
>>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04]
     [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]]
print(clf.sigma_) # 高斯模型的方差
>>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06]
     [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]

朴素贝叶斯法实现简单,学习与预测的效率都很高,甚至在某些特征相关性较高的情况下都有不错的表现,是一种常用的方法

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
3月前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
3月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
161 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
3月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
79 2
|
3月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
155 1
|
3月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
195 1
|
3月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
95 3
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
41 1
|
3月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
62 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
87 0