备案控制台

开发者社区> 问答> 正文

如何将一个spark行（StructType）强制转换为scala案例类

我试图在scala中编写一个udf函数，并在我的pyspark工作中使用它。我的数据帧架构是

root
|-- vehicle_id: string
|-- driver_id: string
|-- StartDtLocal: timestamp
|-- EndDtLocal: timestamp
|-- trips: array
| |-- element: struct
| | |-- week_start_dt_local: timestamp
| | |-- week_end_dt_local: timestamp
| | |-- start_dt_local: timestamp
| | |-- end_dt_local: timestamp
| | |-- StartDtLocal: timestamp
| | |-- EndDtLocal: timestamp
| | |-- vehicle_id: string
| | |-- duration_sec: float
| | |-- distance_km: float
| | |-- speed_distance_ratio: float
| | |-- speed_duration_ratio: float
| | |-- speed_event_distance_km: float
| | |-- speed_event_duration_sec: float
|-- trip_details: array
| |-- element: struct
| | |-- event_start_dt_local: timestamp
| | |-- force: float
| | |-- speed: float
| | |-- sec_from_start: float
| | |-- sec_from_end: float
| | |-- StartDtLocal: timestamp
| | |-- EndDtLocal: timestamp
| | |-- vehicle_id: string
| | |-- trip_duration_sec: float
我正在尝试编写一个udf函数

def calculateVariables(row: Row):HashMap[String, Float] = {

case class myRow(week_start_dt_local: Timestamp, week_end_dt_local: Timestamp, start_dt_local: Timestamp, end_dt_local :Timestamp, StartDtLocal:Timestamp,EndDtLocal:Timestamp,vehicle_id:String,duration_sec:Int,distance_km:Int,speed_distance_ratio:Float,speed_duration_ratio:Float,speed_event_distance_km:Float,speed_event_duration_sec:Float)

val trips = row.getAs[WrappedArray[myRow]](4)
在这个map函数中我试图将行转换为case类但不能。我得到这个错误。

java.lang.ClassCastException：org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema无法强制转换为VariableCalculation.VariableCalculation $ myRow $ 3

展开

收起

社区小助手 2018-12-21 13:47:11 4775 0

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

问题是，.as在Row不只是一个类型转换而已。内部类型trips实际上是Row
所以row.getAs[WrappedArray[Row]]("trips")会工作。然后你可以map覆盖它并myRow从中构建Row。
您可以使用Sparks以某种方式自动执行此操作，Encoder但它们更适合应用于整个数据集。
您是否考虑过为整个模式制定案例类，然后才这样做dataframe.as[MyCaseClass]？这将使您可以正确访问整个嵌套结构

2019-07-17 23:23:24

赞同展开评论打赏

问答分类：

分布式计算 Scala Spark

问答标签：

Scala类 apache spark案例 apache spark Scala Scala Spark apache spark类

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

DataWorks请问这个该从什么方向去排查，我在EMR侧没有找到Spark相关的监控之类的？

69

4

0

MaxCompute Spark是否支持交互式和流计算类需求

39

1

0

spark.aliyun.odps.datasource 有没有基于scala 2.12构建的版本？

113

4

0

spark on maxcompute有相关的案例视频或者实践案例吗？

201

1

0

用Scala写Spark这种工具比用Java写有什么优点啊？

811

1

0

Scala是一种什么类的语言啊？

473

1

0

Spark当中有哪些聚合类的算子,我们应该尽量避免什么类型的算子呢？

739

1

0

scala中的伴生类和伴生对象是什么？

521

1

0

使用Spark读写OSS文件示例代码（以Scala为例）是什么？

1222

1

0

spark算子可以分为多少类？

585

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819211

2 据说在家办公的程序员是这样写代码的？ 1793395

3 阿里云开放端口权限 690408

4 如何升级配置 536376

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 523012

6 【精品问答】python技术1000问(1) 514177

7 Flink Forward Asia 2021 有奖问答 512951

8 OceanBase 使用动画（持续更新） 359408

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329830

10 OSS存储服务-客户端工具 321680

11 为体验实验室取一个新名字。 307533

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304168

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295377

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284318

15 安全组详解，新手必看教程 277387

16 写code还是做管理，开发者如何进行职业规划？ 269331

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255906

18 阿里云手机和阿云浏览器连接问题专帖 235720

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 235044

20 请问阿里云邮箱如何开启SMTP服务啊！ 225944

1 钉钉机器人发送群消息消息，突然不能@人了，昨天还正常，代码没有任何调整，是有什么配置或者服务到期了吗 113

2 大模型数据处理vs人工数据处理，哪个更靠谱？ 782

3 AI年味，创意新年，你认为AI能否为春节活动增添新意呢？ 1172

4 AI程序员功能有一个严重的问题，严重到基本可以认为AI程序员无法发挥任何作用。 120

5 在海量用户中，将如何快速定位到目标人群进行个性化营销？ 684

6 你认为哪些领域的知识对开发者来说特别重要？ 655

7 使用安全体检功能，看看你有多少未修复的安全问题？ 3138

8 强烈建议宜搭手机端改版，现在都展示些什么乱七八糟的内容。 235

9 AI时代，聊聊如何从海量数据中挖掘金矿？ 1354

10 2025阿里云服务器租用价格表(一年/按月/按小时报价明细) 147

11 阿里云域名优惠口令，2025年最新分享 121

12 关于qwen2-vl微调最佳实践 209

13 7、如何在阿里云ECS服务器上进行数据备份？ 193

14 1、当遇到VNC 远程连接阿里云服务器失败时，应该如何解决？ 157

15 与 AI “对话”，多模态音视频交互能给生活提供多大便利？ 950

16 AI造势，学习机爆火，距离“AI家教”还有多远？ 758

17 宜搭远程api 查询表单实例列表，查询条件如何实现类似sql 中的 in (a, b,……)的功能？ 165

18 “99套餐”ECS云端问答节！回答问题赢阿里云纪念衫、加湿器等好礼！ 1114

19 开源PolarDB-X|proxy连接超时 227

20 短信服务发送失败提示签名黑名单 690

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

129

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

156

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

207

21

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

351

9

去学习

Scala核心编程 - 进阶

399

142

去学习

大数据实时计算框架Spark快速入门

1038

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载