如何用4行 R 语句,快速探索你的数据集?

简介: 用最简单的方式,完成探索性分析。痛点实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。
img_623d9071ab05df48a54e4d27a02e6593.jpe

用最简单的方式,完成探索性分析。

痛点

实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。即缺失值统计处理,和变量分布可视化。

数据采集过程中,可能有缺失。

你需要了解缺失数据的多少,以及它们可能对后续分析造成的影响。

如果某个变量的缺失数据少,干脆把含有缺失值的行(观测)扔掉就算了,免得影响分析精确程度。

但如果缺失数据太多,都扔掉就不可行了。你需要考虑如何进行填补。是用0,用 "unknown" ,还是使用均值或中位数?

另外,你可能还想看看每个特征变量的分布情况。

例如定量数据是正态分布,还是幂律分布?这对你后面合理进行研究假设,都是有影响的。

即便是对于分类数据,你也要了解独特取值(unique values)的个数,以便做到心中有数。

这些工作很有必要。但是实现起来,却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件,从前也需要调用若干条命令(一般跟特征变量个数成正比),才能完成。

我最近发现了一款 R 包,可以非常方便地进行数据集总结概览。只要一条语句,就帮你完成探索性数据分析中的许多步骤。

通过本文,我把它分享给你。希望对你的数据分析工作有帮助。

演示

你不需要安装任何软件。只需要点击这个链接http://t.cn/Rg1JFfo),就可以使用 R 编程环境了。

img_9e5aa54fd3ebcaa4f43008af5f38e672.jpe

等准备工作完毕,你会看到,浏览器里面开启了一个 RStudio 界面。

img_1157fc4cad913cb1ff5cc3b28240bd91.png

点击左上角的 File -> New File ,选择菜单里面的第一项 R Script

img_e9727ada4af2b7e472acfbcbb603da7b.png

此时,你会看到左侧分栏一个空白编辑区域开启,可以输入语句了。

img_9889d1716db55becf97fa81b0a38c0c0.png

输入之前,我们先给文件起个名字。点击 File -> Save 按钮。

img_e9727ada4af2b7e472acfbcbb603da7b.png

在新出现的对话框里面,输入 demo ,回车。

img_3268dcd98ed52d89cbb520ebc2a41c65.png

我们一共需要如下输入4条语句。你可以直接复制粘贴进编辑区域。

library(tidyverse)
library(summarytools)
flights <- read_csv("https://gitlab.com/wshuyi/demo-data-flights/raw/master/flights.csv")
view(dfSummary(flights))

分别解释一下含义。其实前3行语句,都是准备工作。真正总结概览功能,只需第4条。

第一行: tidyverse 是一个非常重要的库。可以说它改进了 R 语言处理数据的生态环境。而这个库中的大部分工具,都是 Hadley Wickham 一己之力推动和完成的。

img_74103630cad1445f10fdc0116376fd49.png

第二行: summarytools 是我们今天用来总结概览数据的软件包名称。

第三行: 使用 read_csv 做数据读入。我们是从这个网址读取的,并且把数据存储到 flights 变量中。

你可以点击该链接http://t.cn/Rg1XCCN),下载原始数据 csv 文件,查看其内容。

img_87b36bd385881a2880238d6b13930fb2.png

这个数据集,来自于 Hadley Wickham 的 github 项目,名称叫做 nycflights13

img_6ff1c282ffc9ac123072567c2c9a73b7.png

它记录的是 2013 年,纽约市3大机场(分别为: JFK 肯尼迪国际机场、 LGA 拉瓜迪亚机场,和 EWR 纽瓦克自由国际机场)起飞的航班信息。

具体的记录信息(特征列),包括起飞时间、到达时间、延误时常、航空公司、始发机场、目的机场、飞行时长,和飞行距离等。

这个表格,看起来已经是很清晰的了。但是,由于观测(行)数量众多,我们很难直观分析出缺失值的情况,以及数据的分布等信息。

第4条语句,就是负责帮助我们更好地检视和探索数据用的。它用 dfSummary 函数处理 flights 数据框的内容,然后用 view 函数直观输出给用户。

点击 Code -> Run Region -> Run All 命令,运行代码。

img_e13a433bc221baa75c56e4e060ad162b.png

运行中,可能会有一些警告信息。别理它就好。

img_e5ffa3136586dfc5e1de18e44cefdead.png

分析的结果,在右下方的显示区域。因为区域比较小,内容却很多,看不全面。

你可以点击这个区域左上方第三个按钮 Show in new window ,在浏览器新窗口打开完整的显示结果。

img_fe6bd314925c7ccf3a16ba77b1c66f2a.png

解读

因截图篇幅关系,一张图中,无法显示完整信息。就着第一屏,给你讲解一下都有哪些分析结果。

  • 第一列是序号。不用理会。
  • 第二列是变量名称,以及变量的类型。例如 integer 指的是整数类型的定量数据;character 是字符串类型,也就是分类数据。
  • 第三列是统计结果。对于定量数据,直接汇报最大、最小、均值、中位数等信息。
  • 第六列是有效值个数;与其互补,第七列是缺失值个数。
  • 第四列是频数。显示每一个变量对应独特取值出现的情况。
  • 第五列最有意思,直接绘制分布统计图形。

我们翻到下一页看看。

img_11e15ff435aa8d7b96d03a08178d4ee1.png

可以看出,起飞延误是个典型的幂律分布。

到达延误,和的起飞延误分布长得很像,想想似乎很有道理。

但到达延误的分布类别是什么呢?为什么二者会有差异呢?

这个问题,供你思考。

探索

本文介绍的 summarytools 包的功能,并不只是对数据集做总体总结概览。

它还可以进行变量之间的关系展示。例如你想知道3大机场起飞的航班,对应航空公司的比例是否有差别。可以用一条语句,就得到这样的一张分析表格:

img_aa5eb9da2688386e7316bf1ec5d5be35.png

想自己动手,做出这样一张分析表格?请你点击这个链接(https://github.com/dcomtois/summarytools),阅读文档,了解 summarytools 的更多功能。

img_9f00e66ef54af6e7ad37666d181fa4b9.jpe

喜欢请点赞。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)

如果你对数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。

目录
相关文章
|
6月前
|
编译器 C++
C++语言预处理器学习应用案例
【4月更文挑战第8天】C++预处理器包括条件编译、宏定义和文件包含等功能。例如,条件编译用于根据平台选择不同代码实现,宏定义可简化常量和变量名,文件包含则用于整合多个源文件。示例中展示了如何使用`#ifdef`等指令进行条件编译,当`DEBUG`宏定义时,`PRINT_LOG`会打印调试信息,否则不执行。
51 1
|
6月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
207 1
|
6月前
|
机器学习/深度学习 存储 算法
【复现】尝试使用numpy对卷积神经网络中各经典结构进行改写复现
【复现】尝试使用numpy对卷积神经网络中各经典结构进行改写复现
94 0
【复现】尝试使用numpy对卷积神经网络中各经典结构进行改写复现
|
机器学习/深度学习 Python
深度学习篇之数据集划分方法-附代码python详细注释
深度学习篇之数据集划分方法-附代码python详细注释
深度学习篇之数据集划分方法-附代码python详细注释
|
3月前
|
机器学习/深度学习 计算机视觉
【机器学习】回归树生成过程及举例理解
【8月更文挑战第6天】本文介绍了回归树的生成过程,并通过一个打高尔夫球时间预测的例子详细解释了如何选择分支节点和评估标准方差,以及如何确定停止条件来构建最终的树模型。
63 10
【机器学习】回归树生成过程及举例理解
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
73 2
|
5月前
|
机器学习/深度学习
【机器学习】特征筛选实例与代码详解
【机器学习】特征筛选实例与代码详解
247 0
|
6月前
|
机器学习/深度学习
R语言使用 LOWESS技术图分析逻辑回归中的函数形式
R语言使用 LOWESS技术图分析逻辑回归中的函数形式
|
6月前
|
机器学习/深度学习 数据采集 算法
【Python机器学习】特征工程含义、方法、对应函数详解(图文解释)
【Python机器学习】特征工程含义、方法、对应函数详解(图文解释)
125 0
|
机器学习/深度学习 计算机视觉 Python
python目标识别及实例分割代码(可以套用自己的数据)
python目标识别及实例分割代码(可以套用自己的数据)