案例：汽车价格预测任务概述

案例：汽车价格预测任务概述 | 学习笔记

2022-11-13 371

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习案例：汽车价格预测任务概述

开发者学堂课程【人工智能必备基础：概率论与数理统计：案例：汽车价格预测任务概述】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/545/detail/7438

内容介绍

一、数据集介绍

二、类别属性

三、连续属性

回归分析实际的例子，现想构建一个回归方程，用构建的方程预测之后的汽车价格是多少。背景：有个汽车的数据集，根据数据集建立回归模型，进行预测，并且评估模型构建的效果。会用到 scikit-learn

库，帮助构建模型。

一、数据集简介

主要包括 3 类指标:

汽车的各种特性.

保险风险评级: (-3,-2,-1,0, 1,2, 3).

每辆保险车辆年平均相对损失支付.

二、类别属性

make: 汽车的商标(奥迪，宝马。。。)

fuel-type: 汽油还是天然气

aspiration: 涡轮

num-of-doors: 两]还是四门

body-style: 硬项车、轿车、掀背车、敞篷车

drive-wheels: 驱动轮

engine-location: 发动机位置

engine-type: 发动机类型

num-of-cylinders: 几个气缸

fuel-system: 燃油系统

三、连续指标

bore: continuous from 2.54 to 3.94.

stroke: continuous from 2.07 to4,17.

compression-ratio: continuousfrom 7 to 23.

horsepower: continuous from 48 to 288.

peak-rpm: continuous from4150 to 6600.

city-mpg: continuous from 13 to-49.

highway-mpg: continuous from16 to54.

price: continuous from 5118 to 45400.

数据读取与分析

先对数据进行简单的处理。现数据中有些缺失值，missingno 能对缺失值进行很好的展示。在执行时，先将库装起来，Kmatplotlib inline
表示的是在 hours ago 中，可以直接将图画出。seed = 123
表示随机的种子，在千分数据时，为了使每次取的数据相同。比如，在随机的数据里有 100 个，随机取 80 个，指定好随机种子后，每次取时都是原来的 80 个。若不指定每次取的 80 个都会不一样。

In [35]: a loading packages
import numpy as np
import pandas as pd
from pandas import datet ime
# data visualization and missing values

import matplotlib. pyplot as plt
import seaborn as sns # advanced vizs
import missingno as msno # missing values

Kmatplotlib inline
# stats
from statsmodels. distributions. empirical distribution import ECDF

from sklearn. metrics import mean_ squared_ error, r2_ score
# machine learning
from sklearn. preprocessing import StandardScaler
from sklearn. Linear_model import Lasso, LassoCV
from sklearn. model_ selection import train test split, cross_ val_score

from sklearn. ensemble import RandomForestRegressor
seed = 123
# importing data ( ? = missing values)
data = pd. read_ csv(“Auto-Data. Csv”,na values =’?’)

data. columns

Out[35]: Index([ ‘symboling’ , ‘ normalized-losses’,’ make’,’ fuel-type’ ,’aspiration’ ,
‘num-of- doors’ ,’body-style’ ,’drive-wheels’, ‘engine-location ‘,
‘wheel-base’ , ‘length’,’width’,’height’,’curb-weight’,’engine-type ‘,

’num-of-cylinders’ , ‘engine-size’,’ fuel-system’ ,’ bore ‘, ‘stroke ‘,
‘compression-ratio’,’horsepower’,’peak- rpm’ , ‘city-mpg’,
‘highway-mpg’ ,’price’ ],
dtype=’object’)

In [36]:data. dtypes
0ut[36]: symbolling int64
normalized- losses float64
make object
fuel-type object
aspiration object
num-of -doors object
body-style object
drive-wheels object
engine- locat ion object
wheel-base float64
length float64
width float64
height float64

curb-wei ght
engine- type int64
num-of cylinders object
engine-size object
fuel-system int64
bore object
stroke float64
compression-ratio float64
hor sepower float64
peak- rpm float64
city- mpg float64
hi ghway- mpg int64
price int64
dtype: object float64

In [37]: # first glance at the data itself
print(" In total: “, data. shape)

data. head (5)
In total: (205, 26)

Out[37]:

5 rows x 26 columns

一个比较小的数据集：只有 205 条数据，26 个特征

NaN 表示缺失值

data.describe 显示的是数值信息

In[38]:data.describe()

Out[38]:

案例：汽车价格预测任务概述 | 学习笔记