Scikit-Learn 中级教程——网格搜索和交叉验证

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Scikit-Learn 中级教程——网格搜索和交叉验证

Python Scikit-Learn 中级教程:网格搜索和交叉验证

在机器学习中,选择合适的模型超参数是提高模型性能的关键一步。Scikit-Learn 提供了网格搜索(Grid Search)和交叉验证(Cross-Validation)等工具,帮助我们找到最佳的超参数组合。本篇博客将深入介绍如何使用 Scikit-Learn 中的网格搜索和交叉验证来优化模型。

1. 网格搜索

网格搜索是一种通过遍历指定参数组合的方法,找到模型最佳超参数的技术。Scikit-Learn 中的 GridSearchCV 类提供了方便的网格搜索功能。

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载示例数据集
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 定义模型
model = SVC()

# 定义参数网格
param_grid = {
   'C': [0.1, 1, 10, 100], 'kernel': ['linear', 'rbf'], 'gamma': [0.001, 0.01, 0.1, 1, 'scale', 'auto']}

# 创建 GridSearchCV 对象
grid_search = GridSearchCV(model, param_grid, cv=5)

# 在训练集上执行网格搜索
grid_search.fit(X_train, y_train)

# 输出最佳参数组合和对应的性能指标
print("最佳参数组合:", grid_search.best_params_)
print("最佳性能指标:", grid_search.best_score_)

2. 交叉验证

交叉验证是一种评估模型性能的方法,它将数据集划分为多个子集,每次使用其中一个子集作为测试集,其余子集作为训练集。Scikit-Learn 中的 cross_val_score 函数可以方便地进行交叉验证。

from sklearn.model_selection import cross_val_score

# 使用交叉验证评估模型性能
cv_scores = cross_val_score(model, X_train, y_train, cv=5)

# 输出交叉验证得分
print("交叉验证得分:", cv_scores)
print("平均交叉验证得分:", np.mean(cv_scores))

3. 结合网格搜索和交叉验证

将网格搜索和交叉验证结合起来,可以更全面地评估模型性能,并找到最佳超参数。

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
   'C': [0.1, 1, 10, 100], 'kernel': ['linear', 'rbf'], 'gamma': [0.001, 0.01, 0.1, 1, 'scale', 'auto']}

# 创建 GridSearchCV 对象,设置交叉验证次数为5
grid_search_cv = GridSearchCV(model, param_grid, cv=5)

# 在训练集上执行网格搜索和交叉验证
grid_search_cv.fit(X_train, y_train)

# 输出最佳参数组合和对应的性能指标
print("最佳参数组合:", grid_search_cv.best_params_)
print("最佳性能指标:", grid_search_cv.best_score_)

4. 总结

网格搜索和交叉验证是优化机器学习模型的强大工具。通过使用 Scikit-Learn 提供的 GridSearchCV 和 cross_val_score,我们能够方便地找到最佳超参数组合,并更全面地评估模型性能。在实际应用中,建议使用这两个工具来提高模型的准确性和泛化能力。希望本篇博客对你理解和使用网格搜索和交叉验证有所帮助!

目录
相关文章
|
2天前
|
Python
二分查找变种大赏!Python 中那些让你效率翻倍的搜索绝技!
二分查找是一种高效的搜索算法,适用于有序数组。其基本原理是通过不断比较中间元素来缩小搜索范围,从而快速找到目标值。常见的变种包括查找第一个等于目标值的元素、最后一个等于目标值的元素、第一个大于等于目标值的元素等。这些变种在实际应用中能够显著提高搜索效率,适用于各种复杂场景。
19 9
|
3天前
|
机器学习/深度学习 数据处理 Python
SciPy 教程 之 SciPy 空间数据 4
本教程介绍了SciPy的空间数据处理功能,主要通过scipy.spatial模块实现。内容涵盖空间数据的基本概念、距离矩阵的定义及其在生物信息学中的应用,以及如何计算欧几里得距离。示例代码展示了如何使用SciPy计算两点间的欧几里得距离。
17 5
|
3天前
|
算法 数据处理 开发者
超越传统:Python二分查找的变种策略,让搜索效率再上新台阶!
本文介绍了二分查找及其几种Python实现的变种策略,包括经典二分查找、查找第一个等于给定值的元素、查找最后一个等于给定值的元素以及旋转有序数组的搜索。通过调整搜索条件和边界处理,这些变种策略能够适应更复杂的搜索场景,提升搜索效率和应用灵活性。
16 5
|
2天前
|
机器学习/深度学习 Python
SciPy 教程 之 SciPy 空间数据 6
本教程介绍了SciPy处理空间数据的方法,包括使用scipy.spatial模块进行点位置判断、最近点计算等内容。还详细讲解了距离矩阵的概念及其应用,如在生物信息学中表示蛋白质结构等。最后,通过实例演示了如何计算两点间的余弦距离。
11 3
|
1天前
|
机器学习/深度学习 数据处理 Python
SciPy 教程 之 SciPy 空间数据 7
本教程介绍了SciPy的空间数据处理功能,涵盖如何使用`scipy.spatial`模块进行点的位置判断、最近点计算等操作。还详细解释了距离矩阵的概念及其在生物信息学中的应用,以及汉明距离的定义和计算方法。示例代码展示了如何计算两个点之间的汉明距离。
6 1
|
5天前
|
Python
SciPy 教程 之 SciPy 图结构 7
《SciPy 教程 之 SciPy 图结构 7》介绍了 SciPy 中处理图结构的方法。图是由节点和边组成的集合,用于表示对象及其之间的关系。scipy.sparse.csgraph 模块提供了多种图处理功能,如 `breadth_first_order()` 方法可按广度优先顺序遍历图。示例代码展示了如何使用该方法从给定的邻接矩阵中获取广度优先遍历的顺序。
16 2
|
6天前
|
算法 Python
SciPy 教程 之 SciPy 图结构 5
SciPy 图结构教程,介绍图的基本概念和SciPy中处理图结构的模块scipy.sparse.csgraph。重点讲解贝尔曼-福特算法,用于求解任意两点间最短路径,支持有向图和负权边。通过示例演示如何使用bellman_ford()方法计算最短路径。
16 3
|
6天前
|
缓存 测试技术 Apache
告别卡顿!Python性能测试实战教程,JMeter&Locust带你秒懂性能优化💡
告别卡顿!Python性能测试实战教程,JMeter&Locust带你秒懂性能优化💡
17 1
|
7天前
|
算法 索引 Python
SciPy 教程 之 SciPy 图结构 3
SciPy 图结构教程:介绍图的基本概念、节点和边的定义,以及如何使用 SciPy 的 `scipy.sparse.csgraph` 模块处理图结构。重点讲解 Dijkstra 最短路径算法及其在 SciPy 中的应用,包括 `dijkstra()` 方法的参数设置和使用示例。
10 0
|
7天前
|
Python
SciPy 教程 之 SciPy 图结构 2
《SciPy 教程 之 SciPy 图结构 2》介绍了图结构作为算法学中的重要框架,通过 `scipy.sparse.csgraph` 模块处理图结构。文章示例展示了如何使用 `connected_components()` 方法查找所有连接组件,通过创建稀疏矩阵并调用该方法实现。
8 0
下一篇
无影云桌面