案例:预处理问题 | 学习笔记

简介: 快速学习案例:预处理问题

开发者学堂课程【人工智能必备基础:概率论与数理统计:案例:预处理问题】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7441


案例:预处理问题

一、 预处理

如果一个特性的方差比其他的要大得多,那么它可能支配目标函数,使估计者不能像预期的那样正确地从其他特性中学习。这就是为什么我们需要首先对数据进行缩放。

对于指标值来说,有些值偏大,有些值偏小。
对连续值进行标准化
[55]: = #target and features
target = data. price
regressors = [x for x in data.columns if x not in[‘price ‘]]

features = data. loc[:, regressors]
num = [ ‘symboling’,’normalized-losses’ ,’volume ‘,’horsepower’,’wheel-base’,
‘bore’,’stroke ‘,’coupression-ratio’ ,’peak-rpm’](先将连续值数据拿出,)
# scale the data
standard_ scaler = StandardScaler()(将 StandardScaler 拿过来。也是将函数标准化的工具)
features[num] = standard scaler. fit_ transform (features [num ])

#glimpse

Feature.head()

Out[55]:

image.png

In (57]: # categorical vars
classes = [‘make’, ‘fuel-type’,’ aspiration’,’ num-of -doors’,
‘body-style’,’ dreive-wheels’,’engine- location ‘,’engine-type’, ‘num-of-cylinders’ ,’fuel-system’]
# create new dataset with-only continios vars

dummies = pd. get_ dummies (features[classes])
features = features. join (dummies). drop (classes,
axis = 1)
# new dataset
print(‘In total:’, features. shape)

features. head()
In total: (193, 66)

Out[57]:

image.png

对分类属性就行 one-hot 编码

In [57]: # categorical vars
classes = [‘make’, ‘fuel-type’,’aspiration’,’num-of-doors’,
‘body-style’,’drivelwheels’ ,’ engine-location’ ,’engine-type’ ,’num-of-cylinders’ ,’fuel-system’ ]
# create new dataset with only continios vars

dummies = pd. get_ dummies (features[classes])
features = features. join (dummies). drop(classes,
axis = 1)
# new dataset
print(‘In total:’ , features. shape)

features. head()
In total: (193, 66)

Out[57]:

image.png

划分数据集
In(58]: F split the data into train/test set
х_train, X_test, y train, y test= train_ test_split (features, target,
test_size=0.3,
random_state- seed)
print(" Train”,X train. shape, “and test", X_test. shape)
Train (135, 66) and test (58, 66)
Lassoy 回归
多加了一个绝对值项来惩罚过大的系数,alphas=0 那就是最小二乘了
In [1078]: # logarithmic scale: 1og base 2
#high values to zero-out morevariables

alphas = 2. ** np. arange(2, 12)
scores = np. empty_like (alphas)
for i, a in enumerate (alphas):
lasso = Lasso(random state = seed)

lasso. set_ params (alpha = a)
lasso. fit(X_train, y_ train)
scores[i] = lasso. score(X_ test, y_test)
lassocv = LassoCV(cv=10, random_ state = seed)

lassocv. fit (features, target)

lassocv_ score = lassocv. score (features,- target)

lassocv_ alpha = lassocv. alpha_

相关文章
|
存储 Java 编译器
Go函数解密:底层工作原理
Go函数解密:底层工作原理
298 0
|
XML JSON jenkins
Python代码覆盖率分析工具----Coverage
Python代码覆盖率分析工具----Coverage
775 0
|
11月前
|
前端开发 JavaScript UED
React 轮播图组件 Carousel
本文介绍了如何在 React 中实现和优化轮播图组件,涵盖自动播放、手动切换、循环播放和响应式设计等核心功能。通过 `useState` 和 `useEffect` 钩子管理状态和副作用,添加左右箭头和指示器增强交互性。同时,探讨了常见问题如自动播放与手动切换冲突、指示器样式不一致、响应式设计及性能优化,并提供解决方案和代码示例。帮助开发者提升轮播图组件的用户体验。
632 26
|
缓存 网络协议 Java
(六)网络编程之化身一个请求感受浏览器输入URL后奇妙的网络之旅!
在浏览器上输入一个URL后发生了什么? 这也是面试中老生常谈的话题,包括网上也有大量关于这块的内容。
377 2
|
监控 数据可视化 算法
基于朴素贝叶斯算法的微博舆情监控系统,flask后端,可视化丰富
本文介绍了一个基于朴素贝叶斯算法和Python技术栈的微博舆情监控系统,该系统使用Flask作为后端框架,通过数据爬取、清洗、情感分析和可视化等手段,为用户提供丰富的舆情分析和监测功能。
473 0
|
安全 定位技术
外贸网站如何选择服务器
以上就是选择外贸网站服务器时需要考虑的一些关键因素。
295 8
|
存储 缓存 程序员
C++内存管理:避免内存泄漏与性能优化的策略
C++内存管理涉及程序稳定性、可靠性和性能。理解堆和栈的区别至关重要,其中堆内存需手动分配和释放。避免内存泄漏的策略包括及时释放内存、使用智能指针和避免野指针。性能优化策略则包括减少内存分配、选用合适数据结构、避免深拷贝及缓存常用数据。通过这些最佳实践,可提升C++程序的效率和质量。
|
网络协议 网络安全 网络虚拟化
|
XML Java 数据格式
@Bean 注解
@Bean 注解
3229 5