【ML】机器学习数据集：sklearn中回归数据集介绍

2023-01-17 999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在机器学习的教程中，我们会看到很多的demo，这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

在机器学习的教程中，我们会看到很多的demo，这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

1. Boston房价预测数据集

该数据集将在scikit-learn 1.2版本移除，也就是说，scikit-learn1.2版本及以后，该数据集将不存在，且用且珍惜吧。

数据集加载代码：

# boston房价预测数据集
from sklearn.datasets import load_boston

housing_boston = load_boston()
X = housing_boston.data     # data
y = housing_boston.target   # label

为了便于方便查看加载的数据集，我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例：

运行加载数据集的代码，右侧会出现变量；

在这里插入图片描述

其中X就是输入模型的数据：

在这里插入图片描述

y是数据对应的标签：

在这里插入图片描述

双击点开变量“housing_boston”：

在这里插入图片描述

data: 506条数据，每条数据13维，即每条数据13个特征，这13个特征的名称存储在feature_names变量中，分别为['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
'TAX', 'PTRATIO', 'B', 'LSTAT']

CRIM: 各城镇的人均犯罪率
ZN: 超过25,000平方英尺的住宅用地比例
INDUS: 城镇非零售业态面积比例
CHAS: Charles River虚拟变量
NOX: 一氧化氮浓度(千万分之一)
RM: 每套住宅的平均房间数
AGE: 1940年以前建造的自住单位的比例
DIS: 到五个波士顿就业中心的加权距离
RAD: 径向公路可达性指数
TAX: 每1万美元的全值财产税税率
PTRATIO: 按城镇划分的学生教师比例
B: 城镇中黑人的比例
LSTAT: 人口地位下降率

2. California房价预测数据集

该数据集是Boston房价预测数据集替代数据集，随着scikit-learn版本的更新，以后我们将使用该数据集进行回归预测任务的练习。

数据集加载代码：

# california房价预测数据集
from sklearn.datasets import fetch_california_housing

housing_california = fetch_california_housing()
X = housing_california.data    # data
y = housing_california.target   # label

为了便于方便查看加载的数据集，我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例：

在这里插入图片描述

其中X就是输入模型的数据：

在这里插入图片描述

y是数据对应的标签：

在这里插入图片描述

双击点开变量“housing_california”：

在这里插入图片描述

feature_names变量中，分别为['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']

MedInc: 街区组收入中位数
HouseAge: 街区组房屋年龄中位数
AveRooms: 每户平均房间数
AveBedrms: 每户平均卧室数量
Population: 人口数量
AveOccup: 家庭成员的平均人数
Latitude: 纬度
Longitude: 经度

3. 糖尿病预测数据集

该数据集是sklearn中自带的一个用于预测1年后糖尿病进展的定量测量（换句话说，一个连续变量的预测）。

数据集加载代码：

# 糖尿病数据集
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()

X = diabetes.data           # data
y = diabetes.target         # label

为了便于方便查看加载的数据集，我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例：

运行加载数据集的代码，右侧会出现变量；

在这里插入图片描述