《Scala机器学习》一一1.3 数值字段概述

简介:

本节书摘来自华章计算机《Scala机器学习》一书中的第1章,第1.3节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数值字段概述

虽然数据集的大多数列可能是类别(categorical)类型或复杂类型,但这里还是要介绍一下数值数据。通常数值数据会有五种汇总方式,即中位值、均值、四分位数、最小值和最大值。Spark执行中位数和四分位数会特别简单,因此在介绍Spark的DataFrame时再来介绍这两种汇总方式。下面是采用Scala中相应的运算符来计算均值、最小值和最大值:
image

在多个字段上grep
有时需要知道怎样从多个字段上搜寻特定的值,最常见的是IP/MAC地址、日期和格式化的信息等。比如,若要得到一个文件或文档中的所有IP地址,就可将之前例子中的cut命令替换为grep -o -E 1-9{0,2}(?:\.1-9{0,2}){3}来得到。这里的-o选项表明grep仅获取匹配部分。更精确的IP地址的正则表达式为grep –o –E (?:(?:25[0-5]|20-4|[01]?0-9?).){3} (?:25[0-5]|20-4|[01]?0-9?),但这样会慢50%,第一个正则表达式在大多数实际情形中都有效。这里不介绍如何在本书提供的样例文件上执行这条命令。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】人工智能概述
【机器学习】人工智能概述
111 0
|
机器学习/深度学习 人工智能 算法
【机器学习-黑马程序员】人工智能、机器学习概述
机器学习和人工智能、深度学习的关系 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来的 机器学习的应用场景非常多,主要有下图三种领域:
132 0
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习概述
机器学习概述
25 0
|
4月前
|
机器学习/深度学习 算法 TensorFlow
【人工智能】TensorFlow和机器学习概述
TensorFlow的性能优化将是持续的工作重点。这包括更高效的GPU和TPU支持、更快速的模型训练与推理、以及优化的内存使用。同时,随着硬件的发展,TensorFlow将不断优化其代码库以充分利用新型硬件的能力。
30 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
409 0
|
7月前
|
机器学习/深度学习 存储 监控
使用Scala编写控制局域网上网软件的机器学习算法
在当今数字化世界中,对于使用控制局域网上网软件控制上网活动的需求越来越迫切。无论是家庭、学校还是企业,都需要有效的方法来监控和管理用户在局域网上的上网行为。本文将介绍如何使用Scala编写机器学习算法来实现这一目标,同时提供一些代码示例来说明具体的实现方式。
179 0
|
7月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习概述(二)
【1月更文挑战第26天】【人工智能】机器学习概述(二)
|
7月前
|
机器学习/深度学习 人工智能 算法
【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述
【1月更文挑战第26天】【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述
|
7月前
|
机器学习/深度学习 数据采集 人工智能
数据分析概述2(详细介绍机器学习
数据分析概述2(详细介绍机器学习
65 0