文档备案控制台

开发者社区 Java技术进阶文章正文

基于Spark的机器学习实践 (六) - 基础统计模块

2019-04-12 1177

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： # 0 [相关源码](https://github.com/Wasabi1234/Spark-MLlib-Tutorial) # 1 基础统计模块及常用统计学知识介绍 ◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分 ◆ Basic Statis...

0 相关源码

1 基础统计模块及常用统计学知识介绍

◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分

◆ Basic Statistics主要包括Correlation 与Hypothesis testing等

◆ 其大多被封装在orq.apache spark.mllib.stat._ 中

1.1 基础统计学知识

1.1.1 常用的统计学知识

◆ 描述性统计
平均数,方差,众数,中位数...

◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度

◆ 假设检验
根据一定假设条件，由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测

2 实战统计汇总

◆ 实战的数据来源是北京市历年降水量数据

◆ 学习使用spark对数据进描述性统计

◆ 在进行机器学习模型的训练前,可以了解数据集的总体情况

2.1 coding实战

保存降水量文件
字符串值
实际内容只有一行,读取到数组的是一个超长字符串,需要进行分割.
所需依赖

导入
val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
data.take(10)
统计方法
最大值
平均值

3 学习相关系数

3.1 相关性度量

◆ 是一种研究变量之间线性相关程度的量

◆ 主要学习皮尔逊相关系数:

几组(x, y)的点集，以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向（第一排），而不是相关性的斜率（中间），也不是各种非线性关系（第三排）。请注意：中间的图中斜率为0，但相关系数是没有意义的，因为此时变量Y是0

3.2 实战相关系数

我们对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关性有多大

过滤

相关系数值

4 学习假设检验

4.1 假设检验

◆ 根据一定假设条件，由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝假设

◆ 假设检验的统计方法有很多,如卡方检验，T检验等

◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测

4.2 皮尔森卡方检验

最常用的卡方检验,可以分为适配度检验和独立性检验

◆ 适配度检验:验证观察值的次数分配与理论值是否相等

◆ 独立性检验:两个变量抽样到的观察值是否相互独立

4.3 实战 : 判断性别与左撇子是否存在关系

导入数据
计算

否定了假设检验,所以性别与左撇子是有关的!

文章标签：

分布式计算

Spark

机器学习/深度学习

javaedge

目录

相关文章

中间件小哥

|

消息中间件监控 Cloud Native

云原生中间件与开源自建TCO对比

本文深入阐释云原生中间件与开源自建TCO对比。

中间件小哥

6224 100 161

云原生中间件与开源自建TCO对比

jiajia158

|

缓存数据库对象存储

阿里云服务器1M带宽速度解析，看看可以支持多少访问量？

阿里云服务器1M公网带宽的下载速度是多少?有人说阿里云1m带宽是小水管。那么，阿里云服务器1M带宽速度快吗?带着这些疑问，我们一起了解下1M带宽可以支持多少访问量？

jiajia158

2256 0 0

一念的云平台

|

人工智能边缘计算安全

案例解析 | 广东自由流收费稽核方案，AI稽核新模式

全国首个高速不停车收费AI稽核项目正式落地广东，在业内率先使用AI和大数据技术准确处理高速公路不停车收费的稽核工作。

一念的云平台

1357 1 1

案例解析 | 广东自由流收费稽核方案，AI稽核新模式

衣舞晨风

|

C#

C# WinForm多线程开发（一） Thread类库

原文地址：点击打开链接 [摘要]本文介绍C# WinForm多线程开发之Thread类库，并提供简单的示例代码供参考。 Windows是一个多任务的系统，如果你使用的是windows 2000及其以上版本，你可以通过任务管理器查看当前系统运行的程序和进程。什么是进程呢？当一个程序开始运行时，它就是一个进程，进程所指包括运行中的程序和程序所使用到的内存和系统资源。而一个进程又

衣舞晨风

4038 0 0

阿里云安全_

|

7天前

|

云安全人工智能安全

阿里云入选Forrester报告七大全场景，引领中国AI原生云安全

喜报～

阿里云安全_

1278 7 11

游客usiy5oatinu3g

|

22天前

|

Linux 程序员数据格式

【2026最新】Notepad++下载、安装和使用一篇搞定（附中文版安装包）

Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器，支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展，专为程序员与文本处理用户打造，完美替代系统记事本。（239字）

游客usiy5oatinu3g

4339 4 10

程序员天天困

|

7天前

|

人工智能缓存安全

Claude Code 封号真实原因曝光，这次彻底不装了，直接针对国内开发者的账号下手？

Claude Code 封号潮背后：逆向扒出客户端隐写区域标记，Anthropic 政策收紧叠加 DeepSeek 7 月涨价，国产替代更紧迫。

程序员天天困

641 2 7

bailiantest1

|

13天前

|

人工智能 JSON 自然语言处理

让教学更智慧：用阿里云百炼工作流，自动生成中小学教材内容#小有可为#有温度的AI

通过可视化工作流编排，将大模型推理能力转化为标准化的教学内容生成引擎。教师只需输入教材标题和适用学段，即可自动获得结构完整、符合课程标准的章节内容，大幅降低备课门槛，助力教育资源均衡化。

bailiantest1

495 127 132

游客x3wd6lxa3r6m2

|

16天前

|

存储人工智能监控

QoderWork完全指南：从入门到精通，把“AI实习生”变成你的全能工作搭档

阿里云2026年推出的桌面端AI工作助手QoderWork，不止聊天，更可动手干活：本地运行、安全可控，支持文件整理、数据分析、PPT生成、网页开发等；内置专家套件、多Agent协作与自定义Skills，让AI真正成为你身边的“AI实习生”。

游客x3wd6lxa3r6m2

1138 5 9

Java技术进阶

热门文章

最新文章

ES6之Object.assign()用法，Object.assign()到底是浅拷贝还是深拷贝？

小红书如何实现高效推荐？解密背后的大数据计算平台架构

Promise实现原理（附源码）

JAVA实现的支付宝扫描二维码支付

深入解析SQL查询中的“HAVING”子句与“WHERE”子句的区别

[SWPUCTF 2021 新生赛]jicao

storybook让组件自动形成好看的文档~

递归（recursion）

SharePoint 跨域还原网站一则

突破 TTFB 瓶颈：企业官网重构中的 WordPress 数据库与云端缓存架构优化

边缘安全加速（ESA）技术解析与实战部署指南

Tair 替换 Redis 实战：企业级缓存升级的性能对比与零停机迁移方案

DeepSeek-V4-Pro快速接入教程：使用阿里云GPU服务器全流程

阿里云 Qoder CN 官方安装文档：独立 IDE 客户端、全系列 JetBrains 插件、VSCode 插件分步安装 + 登录配置

Qoder CN 怎么安装？独立 IDE 和 VS/JetBrains 插件两种方式

可回收垃圾目标检测数据集：5类别、13,000张图像 | 目标检测

【Azure Container App】Key Vault的Secret修改导致Container App重启，是否有办法规避呢？

4D Gaussian Splatting 是怎么工作的：从规范 Gaussian 到形变场的原理拆解

基于YOLO11的光伏电池板缺陷检测：从数据集构建到云上训练实践

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！