使用GridSearchCV通过网格搜索优化机器学习模型超参数-开发者社区-阿里云

模型预测笔记(三)：通过交叉验证网格搜索机器学习的最优参数

2024-10-18 2366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了网格搜索（Grid Search）在机器学习中用于优化模型超参数的方法，包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合，并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。

网络搜索

介绍

网格搜索（Grid Search）是一种超参数优化方法，用于选择最佳的模型超参数组合。在机器学习中，超参数是在训练模型之前设置的参数，无法通过模型学习得到。网格搜索通过尝试所有可能的超参数组合，并使用交叉验证来评估每个组合的性能，从而确定最佳的超参数组合。

步骤

网格搜索的步骤如下：

定义要调整的超参数范围：确定要调整的每个超参数的可能取值范围。例如，学习率、正则化参数等。
创建参数网格：将每个超参数的可能取值组合成一个参数网格。
定义评估指标：选择一个评估指标来衡量每个超参数组合的性能。例如，准确率、均方误差等。
构建模型和交叉验证：选择一个机器学习模型，并定义交叉验证策略，将数据集分成训练集和验证集。
执行网格搜索：对于每个超参数组合，在交叉验证的每个训练集上训练模型，并在验证集上评估模型性能。
选择最佳超参数组合：根据评估指标的结果，选择具有最佳性能的超参数组合。
用最佳超参数训练模型：使用最佳超参数组合在整个训练数据集上重新训练模型。

网格搜索的优点是能够系统地尝试不同的超参数组合，找到最佳的模型性能。然而，由于需要尝试所有可能的组合，网格搜索的计算成本较高，尤其是超参数的数量较多时。因此，对于大型数据集和复杂模型，网格搜索可能会变得非常耗时。

为了减少计算成本，可以使用随机搜索（Randomized Search）等其他超参数优化方法，或者使用启发式方法来选择最佳超参数组合。

参数

GridSearchCV的参数包括：

estimator：要使用的模型或者估计器对象。
param_grid：一个字典或者列表，包含要进行网格搜索的参数和对应的取值范围。
scoring：评估模型性能的指标，可以是字符串（使用模型的内置评估指标）或者可调用对象（自定义评估指标）。
cv：交叉验证的折数或者交叉验证迭代器。
n_jobs：并行运行的作业数量。-1表示使用所有可用的处理器。
verbose：控制详细程度的整数值。0表示不输出任何信息，大于1表示输出详细的信息。
refit：如果为True（默认值），则在找到最佳参数后，使用最佳参数重新拟合整个数据集。
return_train_score：如果为True，则同时返回训练集上的得分。
error_score：当模型在某些参数组合下发生错误时，用于返回的分数。可以设置为’raise’（抛出错误）或者数字（返回指定的分数）。
verbose：控制详细程度的整数值。0表示不输出任何信息，大于1表示输出详细的信息。

注意：

在GridSearchCV中，scoring参数可以选择以下评分指标：

回归问题：

‘explained_variance’：可解释方差
‘neg_mean_absolute_error’：负平均绝对误差
‘neg_mean_squared_error’：负均方误差
‘neg_mean_squared_log_error’：负对数均方误差
‘neg_median_absolute_error’：负中位数绝对误差
‘r2’：R^2决定系数

二分类问题：

‘accuracy’：准确率
‘balanced_accuracy’：平衡准确率
‘average_precision’：平均精确率
‘f1’：F1得分
‘precision’：精确率
‘recall’：召回率
‘roc_auc’：ROC曲线下的面积
多分类问题：
‘accuracy’：准确率
‘balanced_accuracy’：平衡准确率
‘average_precision’：平均精确率
‘f1_micro’：微观平均F1得分
‘f1_macro’：宏观平均F1得分
‘precision_micro’：微观平均精确率
‘precision_macro’：宏观平均精确率
‘recall_micro’：微观平均召回率
‘recall_macro’：宏观平均召回率
‘roc_auc_ovr’：基于一对多的ROC曲线下的面积

请注意，不同问题类型和评估指标之间的兼容性可能会有所不同。

5折交叉验证就是把数据集分成5份，然后进行5此测试，如model1就是将第一折fold1的数据作为测试集，其余的四份作为数据集。最后每个model都计算出来一个准确度accuracy，求平均后作为此验证集的精确度。

代码实现

#调用网格搜索和决策树
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, roc_curve, auc
parameters = {'max_depth':[3, 5, 7, 9], 'min_samples_leaf': [1, 2, 3, 4]}# 选择两个超参数 树的深度max_depth和叶子的最小值min_samples_leaf

clf = GridSearchCV(DecisionTreeClassifier(), parameters, cv=3, scoring='accuracy')# 进行网格搜索得到最优参数组合
clf.fit(X_train, y_train) #通过有最优参数组合的最优模型进行训练

print('最优参数：', clf.best_params_)
print('验证集最高得分：', clf.best_score_)
# 获取最优模型
best_model = clf.best_estimator_
print('测试集上准确率：', best_model.score(X_test, y_test))

# 得到预测概率
y_prob_DT = clf.predict_proba(X_test)[:, 1]

# 得到预测标签
y_pred_DT = clf.predict(X_test)

# 得到分类报告
print(classification_report(y_pred = y_pred_DT, y_true = y_test))

# 绘制ROC图
fpr, tpr, threshold = roc_curve(y_score = y_prob_DT, y_true = y_test)
print("AUC值", auc(fpr, tpr))
plt.plot(fpr, tpr,"r-")
plt.plot([0, 1], [0, 1],"b-")
plt.xlable("FPR")
plt.ylable("TPR")
plt.title("ROC Curve")

# 输出结果文件
result = pd.DataFrame()
result["load_ID"] = pd.read_csv("***.csv")["**ID"]
result["predict_labels"] = y_pred_DT
result.to_csv("result.csv", index = False)

# 特征重要性评估
best_DT = clf.best_estimator_
best_DT.fit(X_train, y_train)

# 重要性绘制
plt.figure(figsize(8, 6))
pd.Series(best_DT.feature_importances_, index=X_train.columns).sort_values().plot(kind="barh")

模型预测笔记(三)：通过交叉验证网格搜索机器学习的最优参数

网络搜索

介绍

步骤

参数

代码实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

模型预测笔记(三)：通过交叉验证网格搜索机器学习的最优参数

网络搜索

介绍

步骤

参数

代码实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景