Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

目前各大新闻网站很多,网站上的消息也是各式各样,本项目通过建立支持向量机分类模型进行新闻文本分类。

本项目使用SVC算法来解决分类问题。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

新闻文本数据包含四类新闻,分别用0,1,2,3 表示;数据集包含训练集和测试集。

数据详情如下(部分展示):

image.png

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2 统计每种新闻类型的数量

使用Pandas工具的grougby()方法统计每种新闻类型的数量:

image.png

从图中可以看到,类别为0的有987条数据,类别为1的有1436条数据,类别为2的有790条数据,类别为3的有263条数据。

4.探索性数据分析

4.1 词频柱状图

image.png

从图中可以看到,出现此频率最多的是:评论、中国、足球、体育等词。

4.2 词云图

image.png

通过上图可以看到,分词出现频率比较高是评论、皮肤、女性、中国、新浪、腾讯等,其中一些分词可以根据具体业务需要放入停用词中。

 

5.特征工程

5.1 文本向量化

image.png

上图中,括号内的代表文本行和分词索引,后面的代表词频逆文档频率。

关键代码:

image.png

 

5.2 构建特征和标签与数据集拆分

关键代码如下:

image.png

 

 

6.构建支持向量机分类模型

主要使用SVC算法,用于目标分类。

6.1 默认参数模型构建

image.png

从上图可以看到,支持向量机分类模型的准确率为0.9118,,F1分值为0.9024,默认参数构建的模型效果不错。

关键代码:

image.png

6.2 模型调优:应用网格搜索寻找最优参数值

使用网格搜索算法来寻找最优的参数值:

image.png

从上图可以看到,C参数最优值为10,gamma参数最优值为0.1

 

关键参数代码:

image.png  

6.3 最优参数建模

 

 

编号

模型名称

参数

1

SVM分类模型

C=10

2

gamma=0.1

 

7.模型评估 

7.1评估指标及结果

评估指标主要包括准确率、查准率、召回率、F1分值等等。 

模型名称

指标名称

指标值

测试集

SVM分类模型

准确率

0.9059

查准率

0.9195

召回率

0.9059

F1分值

0.9055

从上表可以看出,SVM分类模型比较优秀,效果非常好。

7.2 查看是否过拟合

查看训练集和测试集的分数:

image.png

通过结果可以看到,训练集分数和测试集分数基本一致,说明未过拟合。

关键代码:

image.png

7.3 混淆矩阵

SVM分类模型混淆矩阵:

 

image.png

从上图可以看到,实际值为0预测不为0的有5个;实际值为1预测不为1的有5个;实际值为2预测不为2的有6个;实际值为3预测不为3的有0个;这些是预测错误的,和总的测试集样本相比,错误预测还是相比对少的,在可接受的范围内。

7.4 分类报告

SVM分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.80;分类类型为1的F1分值为0.94;分类类型为2的F1分值为0.90;分类类型为3的F1分值为0.77;整个模型的准确率为0.91

8.结论与展望

综上所述,本项目采用了SVM分类模型,最终证明了我们提出的模型效果良好。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/101Ccg2mBJ4bSf7R0_Fn5sQ 
提取码:lybv
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
10天前
|
机器学习/深度学习 算法
算法系列之搜索算法-深度优先搜索DFS
深度优先搜索和广度优先搜索一样,都是对图进行搜索的算法,目的也都是从起点开始搜索,直到到达顶点。深度优先搜索会沿着一条路径不断的往下搜索,直到不能够在继续为止,然后在折返,开始搜索下一条候补路径。
87 62
算法系列之搜索算法-深度优先搜索DFS
|
2月前
|
机器学习/深度学习 算法 数据可视化
利用SVM(支持向量机)分类算法对鸢尾花数据集进行分类
本文介绍了如何使用支持向量机(SVM)算法对鸢尾花数据集进行分类。作者通过Python的sklearn库加载数据,并利用pandas、matplotlib等工具进行数据分析和可视化。
154 70
|
11天前
|
存储 算法
算法系列之搜索算法-广度优先搜索BFS
广度优先搜索(BFS)是一种非常强大的算法,特别适用于解决最短路径、层次遍历和连通性问题。在面试中,掌握BFS的基本实现和应用场景,能够帮助你高效解决许多与图或树相关的问题。
29 1
算法系列之搜索算法-广度优先搜索BFS
|
15天前
|
算法
基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真
本程序基于海鸥优化算法(SOA)进行三维曲面最高点搜索的MATLAB仿真,输出收敛曲线和搜索结果。使用MATLAB2022A版本运行,核心代码实现种群初始化、适应度计算、交叉变异等操作。SOA模拟海鸥觅食行为,通过搜索飞行、跟随飞行和掠食飞行三种策略高效探索解空间,找到全局最优解。
|
4月前
|
算法 搜索推荐 数据库
二分搜索:高效的查找算法
【10月更文挑战第29天】通过对二分搜索的深入研究和应用,我们可以不断挖掘其潜力,为各种复杂问题提供高效的解决方案。相信在未来的科技发展中,二分搜索将继续发挥着重要的作用,为我们的生活和工作带来更多的便利和创新。
91 1
|
5月前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。
|
6月前
|
大数据 UED 开发者
实战演练:利用Python的Trie树优化搜索算法,性能飙升不是梦!
在数据密集型应用中,高效搜索算法至关重要。Trie树(前缀树/字典树)通过优化字符串处理和搜索效率成为理想选择。本文通过Python实战演示Trie树构建与应用,显著提升搜索性能。Trie树利用公共前缀减少查询时间,支持快速插入、删除和搜索。以下为简单示例代码,展示如何构建及使用Trie树进行搜索与前缀匹配,适用于自动补全、拼写检查等场景,助力提升应用性能与用户体验。
90 2
|
5月前
|
存储 算法 C++
【搜索算法】 跳马问题(C/C++)
【搜索算法】 跳马问题(C/C++)
|
5月前
|
人工智能 算法 Java
【搜索算法】数字游戏(C/C++)
【搜索算法】数字游戏(C/C++)
|
5月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
153 3

热门文章

最新文章