案例:汽车价格预测任务概述 | 学习笔记

简介: 快速学习案例:汽车价格预测任务概述

开发者学堂课程【人工智能必备基础:概率论与数理统计:案例:汽车价格预测任务概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7438


案例:汽车价格预测任务概述

内容介绍

一、 数据集介绍

二、 类别属性

三、 连续属性

 

回归分析实际的例子,现想构建一个回归方程,用构建的方程预测之后的汽车价格是多少。背景:有个汽车的数据集,根据数据集建立回归模型,进行预测,并且评估模型构建的效果。会用到 scikit-learn

库,帮助构建模型。

 

一、数据集简介

主要包括 3 类指标:

汽车的各种特性.

保险风险评级: (-3,-2,-1,0, 1,2, 3).

每辆保险车辆年平均相对损失支付.

 

二、类别属性

make: 汽车的商标(奥迪,宝马。。。)

fuel-type: 汽油还是天然气

aspiration: 涡轮

num-of-doors: 两]还是四门

body-style: 硬项车、轿车、掀背车、敞篷车

drive-wheels: 驱动轮

engine-location: 发动机位置

engine-type: 发动机类型

num-of-cylinders: 几个气缸

fuel-system: 燃油系统

 

三、 连续指标

bore: continuous from 2.54 to 3.94.

stroke: continuous from 2.07 to4,17.

compression-ratio: continuousfrom 7 to 23.

horsepower: continuous from 48 to 288.

peak-rpm: continuous from4150 to 6600.

city-mpg: continuous from 13 to-49.

highway-mpg: continuous from16 to54.

price: continuous from 5118 to 45400.

数据读取与分析

先对数据进行简单的处理。现数据中有些缺失值,missingno 能对缺失值进行很好的展示。在执行时,先将库装起来,Kmatplotlib inline
表示的是在 hours ago 中,可以直接将图画出。seed = 123
表示随机的种子,在千分数据时,为了使每次取的数据相同。比如,在随机的数据里有 100 个,随机取 80 个,指定好随机种子后,每次取时都是原来的 80 个。若不指定每次取的 80 个都会不一样。

In [35]: a loading packages
import numpy as np
import pandas as pd
from pandas import datet ime
# data visualization and missing values

import matplotlib. pyplot as plt
import seaborn as sns # advanced vizs
import missingno as msno # missing values

Kmatplotlib inline
# stats
from statsmodels. distributions. empirical distribution import ECDF

from sklearn. metrics import mean_ squared_ error, r2_ score
# machine learning
from sklearn. preprocessing import StandardScaler
from sklearn. Linear_model import Lasso, LassoCV
from sklearn. model_ selection import train test split, cross_ val_score

from sklearn. ensemble import RandomForestRegressor
seed = 123
# importing data ( ? = missing values)
data = pd. read_ csv(“Auto-Data. Csv”,na values =’?’)

data. columns

Out[35]: Index([ ‘symboling’ , ‘ normalized-losses’,’ make’,’ fuel-type’ ,’aspiration’ ,
‘num-of- doors’ ,’body-style’ ,’drive-wheels’, ‘engine-location ‘,
‘wheel-base’ , ‘length’,’width’,’height’,’curb-weight’,’engine-type ‘,

’num-of-cylinders’ , ‘engine-size’,’ fuel-system’ ,’ bore ‘, ‘stroke ‘,
‘compression-ratio’,’horsepower’,’peak- rpm’ , ‘city-mpg’,
‘highway-mpg’ ,’price’ ],
dtype=’object’)

In [36]:data. dtypes
0ut[36]: symbolling                     int64
normalized- losses                     float64
make                                   object
fuel-type                                object
aspiration                               object
num-of -doors                           object
body-style                               object
drive-wheels                             object
engine- locat ion                         object
wheel-base                               float64
length                                    float64
width                                     float64
height                                    float64

curb-wei ght
engine- type                               int64
num-of cylinders                           object
engine-size                                object
fuel-system                                int64
bore                                       object
stroke                                      float64
compression-ratio                          float64
hor sepower                                float64
peak- rpm                                  float64
city- mpg                                   float64
hi ghway- mpg                              int64
price                                        int64
dtype: object                               float64

In [37]: # first glance at the data itself
print(" In total:  “, data. shape)

data. head (5)
In total:    (205, 26)

Out[37]:

image.png

5 rows  x 26 columns

一个比较小的数据集:只有 205 条数据,26 个特征

NaN 表示缺失值

data.describe 显示的是数值信息

In[38]:data.describe()

Out[38]:

image.png

相关文章
|
Web App开发 Linux
只需五步,在Linux安装chrome及chromedriver(CentOS)
只需五步,在Linux安装chrome及chromedriver(CentOS)
5989 1
|
10月前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
395 6
从零开始:用Python爬取网站的汽车品牌和价格数据
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
10月前
|
人工智能 自然语言处理 数据可视化
清华大学104页PPT《DeepSeek从入门到精通》分享
清华大学发布的《DeepSeek从入门到精通》PPT共104页,系统讲解了这款由清华团队研发的开源通用人工智能工具。内容涵盖DeepSeek的功能、应用场景及优化策略,帮助用户从零开始掌握文本生成、语义分析、编程辅助等核心技能,并提供实战提示语模板和避坑指南。下载链接:[夸克网盘](https://pan.quark.cn/s/aaf63504a246)。
987 3
清华大学104页PPT《DeepSeek从入门到精通》分享
|
9月前
|
消息中间件 缓存 NoSQL
缓存与数据库的一致性方案,Redis与Mysql一致性方案,大厂P8的终极方案(图解+秒懂+史上最全)
缓存与数据库的一致性方案,Redis与Mysql一致性方案,大厂P8的终极方案(图解+秒懂+史上最全)
|
机器学习/深度学习 自然语言处理 前端开发
深度学习-[源码+数据集]基于LSTM神经网络黄金价格预测实战
深度学习-[源码+数据集]基于LSTM神经网络黄金价格预测实战
696 0
|
自然语言处理 搜索推荐 小程序
深入剖析:销售易与神州云动CRM系统的功能对比及企业适配性
在企业数字化转型中,CRM系统成为提升客户管理和优化销售流程的关键工具。本文对比分析了国内两大CRM提供商——销售易和神州云动的产品功能及适用企业类型。销售易以全渠道营销、智能化销售流程和行业解决方案见长,适合大型企业;神州云动则凭借高度定制化、系统集成能力和移动办公支持,更受中小企业欢迎。两者各具特色,为企业提供了多样化的选择。
|
SQL Java 关系型数据库
spring data elasticsearch 打印sql(DSL)语句
spring data elasticsearch 打印sql(DSL)语句
948 0
|
负载均衡 网络协议 前端开发
一文快速上手 Nacos 注册中心+配置中心!
一文快速上手 Nacos 注册中心+配置中心!
9026 0
|
监控 负载均衡 API
Python模型部署与服务化:面试中的热门话题
【4月更文挑战第17天】本文探讨了Python模型部署与服务化的面试重点,包括模型导出、API设计、服务化平台、性能优化、安全与合规等方面。强调了Flask、FastAPI等本地部署,以及阿里云、AWS等云服务部署。易错点涉及环境差异、服务稳定性和版本管理。提供Flask部署模型服务和阿里云SLS日志服务监控的代码示例,建议面试者全面掌握相关知识和实践经验。
264 9