浅显易懂的机器学习（十）—— 岭回归预测

2022-10-18 845

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文主要讲解了如何用岭回归来实现预测

十岭回归

岭回归是线性回归的改进，有时候迫不得已我们的参数确实不能少，这时候过拟合的现象就可能发生。为了避免过拟合现象的发生，既然不能从减少参数上面下手，那我们转而在线性回归的最后面添加一个罚项，罚项有时也被称为正则化项，其主要用于控制模型的平滑度，当模型参数越多，模型越复杂，那么罚项惩罚值就越大。

罚项可以是L1范数也可以是L2范数，对于使用L1范数的回归我们一般叫做Lasso线性回归。而对于使用L2范数的回归我们一般叫做岭回归。在这一讲中，我们主要讲述岭回归。

10.1 岭回归的接口

Ridge回归通过对系数的大小施加惩罚来解决普通线性模型使用最小二乘法带来的一些问题。

sklearn.linear_model.Ridge(alpha = 1.0,fit_intercept = True,solver = "auto",normalize = False)

具有L2正则化的线性回归

alpha：正则化力度，也叫$λ$

λ取值为0~1或 1~10

solver:会根据数据自动选择优化方法

SAG：如果数据集、特征都比较大，那么建议选择sag作为优化策略

normalize：数据是否进行标准化

normalize = False:可以在fit之前调用preprocessing.StandardScaler标准化数据

Ridge.coef_：回归权重

Ridge.intercept_：回归偏置

从图上来看，当alpha数值越高，则惩罚力度越大，权重系数越小，曲线越平滑。

10.2 岭回归处理房价预测

让我们用岭回归来预测波士顿房价吧。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error


def load_data():
    """加载数据集"""
    boston_data = load_boston()
    x_train, x_test, y_train, y_test = train_test_split(boston_data.data, boston_data.target, random_state=22)
    return x_train, x_test, y_train, y_test


def ridge_linear_model():
    """用岭回归做预测"""
    x_train, x_test, y_train, y_test = load_data()

    # 预估器
    estimator = Ridge(normalize=True)
    estimator.fit(x_train, y_train)

    # 得出模型
    print("权重系数为：\n", estimator.coef_)
    print("偏置为：\n", estimator.intercept_)

    # 模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价：\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("岭回归——均方误差为：\n", error)


ridge_linear_model()