R 实列—预测海藻数量之数据预处理| 学习笔记

简介: 快速学习 R 实列—预测海藻数量之数据预处理

开发者学堂课程【大数据之 R 语言速成与实战R 实列—预测海藻数量之数据预处理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/363/detail/4345


R 实列—预测海藻数量之数据预处理

 

目录

一、数据缺失处理

二、处理缺失值常见的的策略

三、观察缺失值

四、如何处理缺失值

 

一、 数据缺失处理

在许多水样中,一些变量含有缺失值。这种情形在现实问题中非常普遍这会导致不能处理缺失值的分析方法无法应用。

 

二、 处理缺失值通常有以下几种常见的策略:

1、见含有缺失值的记录剔除

2、根据变量之间的相关关系填补缺失值;

3、根据案列之间的相似性填补缺失值


三、 观察缺失值

导入数据 :> 1ibrary(DMwR)

L oading required package: lattice

L oading required package: grid

warning message :

package DMwRwas built under R version 3.2.5x

通过函数:agae[lcomplete. cases(algae),]|可以把含有缺失值的记录提取出来

含有是十六条缺失值

含有多缺失值的寻找方法用函数:manyNAsalgae)可以反馈出来:【1 02 19判断缺失值多少:manyNAsalgae,0.2)中0.2的意思如果他的属性缺失的属性超过所有属性的百分之二十我们就能把他提取出来.

 

四、如何处理这些缺失值

1、把有缺失值的记录删除,分析方法就不存在报错

2、根据变量之间的相关关系来填补缺失值,列如第一个字段和第二个字段他们的相关性比较高达到 1,我们就可能找到他们的相关函数 比如 a1 是齐全的 a2 是缺失的 我们就可以通 a1 相关函数计算出 a2

3、案例之间的相似性来填补

实例:

方法一:

对计数值多的

后面输入:> X <- algae

> y <. OITLCXJ

1-.211 17.47

得到的y就是没有缺失值

改为> y[! complete. cases (y) 得到就是不含缺失值的(这种就是直接删除)

方法二

先找相关变量关系:输入 cor(algae[4:18] , use=comp lete. obs"|可以得到第四个字和第十八个字之间的相关关系

如果结果看不清楚就可以输入:> symnum(cor(a1gae[

4:18]use="complete. obs")),使结果可视化

相关性就变得特别高

大概看出 po4 opo4 属性相似最近接1 就可以用一个推另一个

获取他们的相关性:

> x <- algae [-manyNAs (algae) ]

1m(P04~oP04data=x)

公式:PO4=42.897+1.293xOPO4

以计算结果

方法三

两百条记录比较 求他们距离值,比如采取欧式句,相同的字段做减法再开平方根,可以得出不同的平记录数之间的差值 ,把差值最小的依次排序得到最相近的十条记录,有些记录不齐全的,不存在缺失值, 有些是有少缺失,那么我们就把有缺失值的所在的字段,列外的一些存在的值求他们的中位数。就是某些字段他们之间相似就可以来填补缺失值

相关文章
|
SQL Java 数据库连接
挺详细的spring+springmvc+mybatis配置整合|含源代码
挺详细的spring+springmvc+mybatis配置整合|含源代码
|
存储 监控 数据可视化
开发者如何使用日志服务 SLS
【10月更文挑战第17天】开发者如何使用日志服务 SLS
2640 4
|
前端开发 定位技术 数据库
如何自己独立制作网站?
本文介绍了网站建设的三大步骤:网站建设、域名注册、服务器租用。其中,定制建站是传统方式,SAAS平台和独立建站系统则更适合低要求和有建站需求的用户。
485 10
|
12月前
|
监控 NoSQL Java
若依RuoYi项目环境搭建教程(RuoYi-Vue + RuoYi-Vue3版本)
若依(RuoYi)是一款基于Spring Boot和Vue.js的开源Java快速开发脚手架,支持OAuth2、JWT鉴权,集成多种安全框架和持久化框架。它提供了系统管理、监控管理、任务调度、代码生成等常用功能模块,适合中小型公司快速搭建Web应用。本文主要介绍若依框架的特点、版本发展、优缺点及项目部署步骤,帮助开发者快速上手并部署若依项目。
14109 3
若依RuoYi项目环境搭建教程(RuoYi-Vue + RuoYi-Vue3版本)
|
算法 安全 C++
提高C/C++代码的可读性
提高C/C++代码的可读性
274 4
|
JavaScript 应用服务中间件 Linux
宝塔面板部署Vue项目、服务端Node___配置域名
本文介绍了如何使用宝塔面板在阿里云服务器上部署Vue项目和Node服务端项目,并配置域名。文章详细解释了安装宝塔面板、上传项目文件、使用pm2启动Node项目、Vue项目打包上传、以及通过Nginx配置域名和反向代理的步骤。
4391 1
宝塔面板部署Vue项目、服务端Node___配置域名
|
人工智能
歌词结构的艺术:写歌词的技巧和方法深度剖析,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂伴侣,其结构蕴含独特艺术魅力。掌握歌词结构技巧是创作者成功的关键。开头需迅速吸引听众,主体部分通过叙事、抒情或对话形式展开,结尾则点睛收尾。创作时可借助《妙笔生词智能写歌词软件》,利用 AI 功能优化歌词,提供丰富模板和案例,助力灵感涌现,轻松掌握歌词结构艺术。
|
SQL 关系型数据库 MySQL
mysql密码错误-ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)
这篇文章提供了解决MySQL数据库"Access denied for user 'root'@'localhost' (using password: YES)"错误的方法,通过跳过密码验证、修改root密码,然后重启服务来解决登录问题。
mysql密码错误-ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)
|
存储 关系型数据库 MySQL
MySQL主从同步如何保证数据一致性?
MySQL主从同步如何保证数据一致性?
986 0
MySQL主从同步如何保证数据一致性?
|
算法 Linux 数据安全/隐私保护
【Linux | C++ 】生产者消费者模型(Linux系统下C++ 代码模拟实现)
【Linux | C++ 】生产者消费者模型(Linux系统下C++ 代码模拟实现)
551 0