备案控制台

开发者社区人工智能文章正文

《Spark机器学习》读书笔记总结

2016-12-27 3837

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ![](https://img3.doubanio.com/lpic/s28323081.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) [《Machine Learning with Spark》书评与作者访谈](

Spark机器学习

《Machine Learning with Spark》书评与作者访谈

示意图

文章标签：

算法

分布式计算

Spark

机器学习/深度学习

关键词：

apache spark机器学习

人工智能平台 PAI spark

机器学习平台 PAI读书笔记

机器学习平台 PAIspark

apache spark总结

六翁

目录

相关文章

极客李华

|

机器学习/深度学习分布式计算算法

Spark中的机器学习库MLlib是什么？请解释其作用和常用算法。

Spark中的机器学习库MLlib是什么？请解释其作用和常用算法。

极客李华

461 0 0

阿里云大数据

|

10月前

|

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

500 15 15

kng32f3vbngrm

|

机器学习/深度学习数据采集分布式计算

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

标准化Scaler是数据预处理技术，用于将特征值映射到均值0、方差1的标准正态分布，以消除不同尺度特征的影响，提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能，通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化，包括创建SparkSession，构建DataFrame，使用VectorAssembler和StandardScaler，以及将向量拆分为列。规范化有助于降低特征重要性，提高模型训练速度和计算效率。

kng32f3vbngrm

632 6 6

kng32f3vbngrm

|

机器学习/深度学习分布式计算算法

【机器学习】Spark ML 对数据特征进行 One-Hot 编码

One-Hot 编码是机器学习中将离散特征转换为数值表示的方法，每个取值映射为一个二进制向量，常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码，输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中，先用 StringIndexer 对类别特征编码，再用 OneHotEncoder 转换，最后展示编码结果。注意 One-Hot 编码可能导致高维问题，可结合实际情况选择编码方式。

kng32f3vbngrm

432 6 6

vohelon

|

机器学习/深度学习分布式计算算法

使用Spark进行机器学习

【5月更文挑战第2天】使用Spark进行机器学习

vohelon

271 2 2

jjczqyjxgdegi

|

机器学习/深度学习分布式计算 API

技术好文：Spark机器学习笔记一

技术好文：Spark机器学习笔记一

jjczqyjxgdegi

160 0 0

晓之以理的喵~~

|

机器学习/深度学习分布式计算算法

Spark MLlib简介与机器学习流程

Spark MLlib简介与机器学习流程

晓之以理的喵~~

457 0 0

Maynor

|

机器学习/深度学习人工智能分布式计算

机器学习(一)Spark机器学习基础

机器学习(一)Spark机器学习基础

Maynor

131 0 0

热烈的马

|

机器学习/深度学习分布式计算搜索推荐

【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

热烈的马

475 0 0

轻风_soho

|

机器学习/深度学习分布式计算大数据

Spark机器学习之推荐引擎

spark是现在非常流行的一个计算框架，本文重要是用spark框架做推荐系统的实现。

轻风_soho

3865 0 1

热门文章

最新文章

一文读完GitHub30+篇顶级机器学习论文（附摘要和论文下载地址）

手把手：用Python搭建机器学习模型预测黄金价格

大数据与机器学习：数字时代的强大动力

机器学习PAI有奖调研获奖名单

《meaching learning》机器学习学习记录4.神经网络

《机器学习实战》Logistic回归算法（1）

机器学习算法之——卷积神经网络(CNN)原理讲解

机器学习模型太慢？来看看英特尔(R) 扩展加速 ⛵

深入讨论机器学习 8 大回归模型的基本原理以及差异！

机器学习（五）聚类之图像分割

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

Dataphin功能Tips系列（47）-支持通过Spark本地客户端提交Spark Batch任务

如何在IDE中通过Spark操作Hive

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

大数据实时计算框架Spark快速入门

相关电子书

更多

微博机器学习平台架构和实践

机器学习及人机交互实战

大数据与机器学习支撑的个性化大屏

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

下一篇

安全设备篇——WAF