LightGBM的参数详解以及如何调优（上）-阿里云开发者社区

LightGBM的参数详解以及如何调优（上）

2022-12-19 982

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： LightGBM的参数详解以及如何调优

lightGBM可以用来解决大多数表格数据问题的算法。有很多很棒的功能，并且在kaggle这种该数据比赛中会经常使用。

但我一直对了解哪些参数对性能的影响最大以及我应该如何调优lightGBM参数以最大限度地利用它很感兴趣。

我想我应该做一些研究，了解更多关于lightGBM的参数…并分享我的旅程。

我希望读完这篇文章后，你能回答以下问题:

LightGBM中实现了哪些梯度增强方法，它们有什么区别?
一般来说，哪些参数是重要的?
哪些正则化参数需要调整?
如何调整lightGBM参数在python?

梯度提升的方法

使用LightGBM，你可以运行不同类型的渐变增强提升方法。你有:GBDT、DART和GOSS，这些可以通过“boosting”参数指定。

在下一节中，我将对这些方法进行解释和比较。

梯度提升决策树（GBDT）

该方法是本文首先提出的传统梯度提升决策树，也是XGBoost和pGBRT等优秀库背后的算法。

由于其精度高、效率高、稳定性好，目前已得到广泛的应用。你可能知道gbdt是一个决策树的集合模型但是它到底是什么意思呢?

让我来告诉你要点。

它基于三个重要原则:

弱学习者(决策树)
梯度优化
提升技术

所以在gbdt方法中，我们有很多决策树(弱学习者)。这些树是按顺序构建的:

首先，树学习如何适应目标变量
第二棵树学习如何适合残差(差异)之间的预测，第一棵树和地面真相
第三棵树学习如何匹配第二棵树的残差，以此类推。

所有这些树都是通过传播整个系统的误差梯度来训练的。

gbdt的主要缺点是，在每个树节点中找到最佳分割点非常耗时，而且会消耗内存。其他的提升方法试图解决这个问题。

DART 梯度提升

在这篇优秀的论文中（arxiv/1505.01866），你可以学习所有关于DART梯度提升的东西，这是一种使用dropout(神经网络中的标准)的方法，来改进模型正则化和处理一些其他不太明显的问题。

也就是说，gbdt存在过度专门化（over-specialization）的问题，这意味着在以后的迭代中添加的树往往只会影响对少数实例的预测，而对其余实例的贡献则可以忽略不计。添加dropout会使树在以后的迭代中更加难以专门化那些少数的示例，从而提高性能。

lgbm goss 基于梯度的单边采样

事实上，将该方法命名为lightgbm的最重要原因就是使用了基于本文的Goss方法。Goss是较新的、较轻的gbdt实现(因此是“light”gbm)。

标准的gbdt是可靠的，但在大型数据集上速度不够快。因此goss提出了一种基于梯度的采样方法来避免搜索整个搜索空间。我们知道，对于每个数据实例，当梯度很小时，这意味着不用担心数据是经过良好训练的，而当梯度很大时，应该重新训练。这里我们有两个方面，数据实例有大的和小的渐变。因此，goss以一个大的梯度保存所有数据，并对一个小梯度的数据进行随机抽样(这就是为什么它被称为单边抽样)。这使得搜索空间更小，goss的收敛速度更快。

让我们把这些差异放在一个表格中:

注意:如果你将增强设置为RF，那么lightgbm算法表现为随机森林而不是增强树! 根据文档，要使用RF，必须使用bagging_fraction和feature_fraction小于1。

正则化

在这一节中，我将介绍lightgbm的一些重要的正则化参数。显然，这些是您需要调优以防止过拟合的参数。

您应该知道，对于较小的数据集(<10000条记录)，lightGBM可能不是最佳选择。在这里，调优lightgbm参数可能没有帮助。

此外，lightgbm使用叶向树生长算法，而xgboost使用深度树生长算法。叶向方法使树的收敛速度更快，但过拟合的几率增加。

注意:如果有人问您LightGBM和XGBoost之间的主要区别是什么?你可以很容易地说，它们的区别在于它们是如何实现的。

根据lightGBM文档，当面临过拟合时，您可能需要做以下参数调优:

使用更小的max_bin
使用更小的num_leaves
使用min_data_in_leaf和min_sum_hessian_in_leaf
通过设置bagging_fraction和bagging_freq使用bagging_freq
通过设置feature_fraction使用特征子采样
使用更大的训练数据
尝试lambda_l1、lambda_l2和min_gain_to_split进行正则化
尝试max_depth以避免树的深度增长

在下面的部分中，我将更详细地解释这些参数。

lambda_l1

Lambda_l1(和lambda_l2)控制l1/l2，以及min_gain_to_split用于防止过拟合。我强烈建议您使用参数调优(在后面的小节中讨论)来确定这些参数的最佳值。

num_leaves

num_leaves无疑是控制模型复杂性的最重要参数之一。通过它，您可以设置每个弱学习者拥有的叶子的最大数量。较大的num_leaves增加了训练集的精确度，也增加了因过度拟合而受伤的几率。根据文档，一个简单的方法是num_leaves = 2^(max_depth)但是，考虑到在lightgbm中叶状树比层次树更深，你需要小心过度拟合!因此，必须同时使用max_depth调优num_leaves。

子采样

通过子样例(或bagging_fraction)，您可以指定每个树构建迭代使用的行数百分比。这意味着将随机选择一些行来匹配每个学习者(树)。这不仅提高了泛化能力，也提高了训练速度。

我建议对基线模型使用更小的子样本值，然后在完成其他实验(不同的特征选择，不同的树结构)时增加这个值。

feature_fraction

特征分数或子特征处理列采样，LightGBM将在每次迭代(树)上随机选择特征子集。例如，如果将其设置为0.6,LightGBM将在训练每棵树之前选择60%的特性。

这个功能有两种用法:

可以用来加速训练吗
可以用来处理过拟合吗

max_depth

该参数控制每棵经过训练的树的最大深度，将对:

num_leaves参数的最佳值
模型的性能
训练时间

注意，如果您使用较大的max_depth值，那么您的模型可能会对于训练集过拟合。

max_bin

装箱是一种用离散视图(直方图)表示数据的技术。Lightgbm在创建弱学习者时，使用基于直方图的算法来寻找最优分割点。因此，每个连续的数字特性(例如视频的视图数)应该被分割成离散的容器。

此外，在这个GitHub repo（huanzhang12/lightgbm-gpu）中，你可以找到一些全面的实验，完全解释了改变max_bin对CPU和GPU的影响。

如果你定义max_bin 255，这意味着我们可以有255个唯一的值每个特性。那么，较小的max_bin会导致更快的速度，较大的值会提高准确性。

LightGBM的参数详解以及如何调优（上）

梯度提升的方法

正则化

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

LightGBM的参数详解以及如何调优（上）

梯度提升的方法

正则化

热门文章

最新文章

相关电子书