【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释附源码）-阿里云开发者社区

【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释附源码）

2023-12-20 175

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释附源码）

需要代码请点赞关注收藏后评论区留言私信~~~

朴素贝叶斯分类

朴素贝叶斯（naïve Bayes）分类是基于贝叶斯定理与特征条件独立假定的分类方法。

设试验E的样本空间为S，A为E的事件，B_1，B_2，⋯，B_n为S的一个划分，且P(A)>0，P(B_i)>0(i=1,2,…,n)，则贝叶斯公式为：

P(B_i)称为先验概率，即分类B_i发生的概率，它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时，最有可能的分类B_i。

设样本集为S={s_1,s_2,…,s_m}，每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。

朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率，然后基于它们，对给定的测试样本x，利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。

特征条件独立假定，是指假定样本的各个特征是相互独立的，互不关联。这个假定显然是不符合实际的，但它可以在大数据量、大特征量的情况下极大简化计算，使得贝叶斯算法实际可行。从实际应用情况来看，朴素贝叶斯分类也取得了不错的效果。

1：多项式朴素贝叶斯分类器

多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中，出现指定次数正面（或反面）的概率是二项分布。将二项分布中的两种状态推广到多种状态，就得到了多项式分布。

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
fit(X, y, sample_weight=None)
predict(X)
predict_proba(X)

其中，alpha称为平滑值，它用来避免在估计条件概率时出现值为0的情况，它的取值大于0，当等于1时，称为Laplace平滑。

当假定特征取值符合0-1分布时，多项式分类器退化为伯努利朴素贝叶斯分类器，即伯努利朴素分类器中，特征只能取两个值，它在某些场合下比多项式分类器效果更好一些，使用伯努利分类器之前，需要先将非二值的特征转化为二值的特征

部分代码如下用来预测相亲问题

# 训练样本集
blind_date_X = [ [35, 176, 0, 20000],
                 [28, 178, 1, 10000],
                 [26, 172, 0,],
                 [29, 173, 2, 20000],
                 [28, 174, 0, 15000] ]
blind_date_y = [ 0, 1, 0, 1, 1 ]
# 测试样本集
test_sample = [  [24, 178, 2, 170],
                 [27, 176, 0, 25000],
                 [27, 176, 0, 10000]  ]
# 多项式朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))

2：高斯朴素贝叶斯分类器

当特征值是连续变量的时候，可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。

代码如下

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))
>>> [1 0 1]
print(clf.class_prior_) # 标签的先验概率
>>> [0.4 0.6]
print(clf.class_count_) # 每个标签的样本数量
>>> [2. 3.]
print(clf.theta_) # 高斯模型的期望值
>>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04]
     [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]]
print(clf.sigma_) # 高斯模型的方差
>>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06]
     [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]

朴素贝叶斯法实现简单，学习与预测的效率都很高，甚至在某些特征相关性较高的情况下都有不错的表现，是一种常用的方法

创作不易觉得有帮助请点赞关注收藏~~~

【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释附源码）

朴素贝叶斯分类

1：多项式朴素贝叶斯分类器

2：高斯朴素贝叶斯分类器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释 附源码）

朴素贝叶斯分类

1：多项式朴素贝叶斯分类器

2：高斯朴素贝叶斯分类器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战（图文解释附源码）