数据清洗_转换完成|学习笔记

简介: 快速学习数据清洗_转换完成

开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段 数据清洗_转换完成】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/691/detail/12115


数据清洗_转换完成


转换完成

针对异常处理,通过 safe 方法返回 either 对象之后,该如何处理 either 对象。

进入 idea 中

taxiRaw.rdd.map(safe(parse))

map 返回一个 rdd,命名为 taxiParsed,类型是 either,either 中正确是情况是 trip,不正确的情况是 (Row,Exception)

用 either 对象是因为可以对 taxi 进行处理,用 filter,返回 e,map 一下,拿到一个 either,either 直接 right.get 转成 right,返回的结果中是所有有问题的数,可以下划线1,get._1

//4、转换操作

val taxiParsed: RDo[Either[Trip,(Row,Exception)]] = taxiRaw .rdd.map(safe(parse))

//可以通过如下方式来过滤出来所有异常的 row

// taxiparsed.filter(e => e.isRight)

// .map(e => e.right.get._1)

通过 either 对象的形式,较为方便找到出异常的 row

如果拿到所有出异常的 row 作为一个需求,除了 either,其他都比较复杂

rdd 是一个 either 类型,不可能用 either 类型的 rdd 直接使用,先过滤出问题的行,去掉或转换出问题的行

用 taxiParsed 进行一个转换,将所有的 either 转成 left,如果返回的 either 是一个 right 类型,通过 left.get 是错的,直接.toDS,如果报错说明中间有问题,没有报错说明中间没问题。

拿到 taxiDood,taxiDood 是一个 trip 类型

val taxiGood: Dataset[Trip= taxiParsed.map(either => either.left.get ).toDS()

数据清洗与数据转化完成

数据清洗是对报错、对空值的处理,数据转化是 parse 方法将数据。进行转换

拿到最终结果,任务完成

相关文章
|
2天前
|
数据采集 人工智能 安全
|
11天前
|
云安全 监控 安全
|
3天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1020 151
|
3天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1717 9
|
8天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
660 152
|
10天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
623 13
|
5天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
383 4