社区小助手_个人页

个人头像照片 社区小助手
12
824
0

个人介绍

社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
  • 提交了问题 2018-12-19

    Spark - 使用OpenCSV解析文件的序列化问题

  • 提交了问题 2018-12-19

    使用pyspark中json文件的模式读取固定宽度文件

  • 提交了问题 2018-12-19

    Graphframes / Graphx连接组件跳过数字

  • 提交了问题 2018-12-19

    pyspark是否可以从S3中的表读取,处理数据然后保存在同一个文件夹中?

  • 提交了问题 2018-12-19

    Spark写入流到IBM Cloud对象存储失败,“Access KEY为空。请提供有效的访问密钥“

  • 提交了问题 2018-12-19

    Spark:Scala模拟,Task不可序列化

  • 提交了问题 2018-12-19

    将Spark org.apache.spark.sql.Dataset#show()的输出作为字符串获取?

  • 提交了问题 2018-12-19

    flattern scala数组类型列到多列

  • 提交了问题 2018-12-19

    从pyspark.sql.dataframe.DataFrame到arraytype

  • 提交了问题 2018-12-19

    Spark-Scala build.sbt libraryDependencies UnresolvedDependency

  • 提交了问题 2018-12-19

    如何为Spark SQL设置元数据数据库?

  • 提交了问题 2018-12-19

    Spark Scala:如何同时过滤RDD和更新计数器

  • 提交了问题 2018-12-19

    使用spark xml读取值xml标记值,想要获取值但是给我列表

  • 提交了问题 2018-12-19

    如何在集群部署模式下管理作业依赖性

  • 提交了问题 2018-12-19

    spark完成工作所花费的时间

  • 提交了问题 2018-12-19

    在Apache spark中跨执行程序共享数据

  • 提交了问题 2018-12-19

    sortBy中的一列RDD

  • 提交了问题 2018-12-19

    Spark:用于卡尔曼滤波器的窗口和UDAF

  • 提交了问题 2018-12-19

    当数据存储在对象存储中时,从Spark SQL访问Hive表

  • 提交了问题 2018-12-19

    spark driver如何决定使用哪个spark执行器?

  • 提交了问题 2018-12-19

    Pyspark-在groupBy中分配每个组[重复]

  • 提交了问题 2018-12-19

    Spark - 如何在已定义的层次结构中进行汇总,其中父元素不存在于数据集中

  • 提交了问题 2018-12-19

    如何使用Spark JDBC数据源设置表编码?

  • 提交了问题 2018-12-19

    如何在CSV文件中的更新行上运行流查询?

  • 提交了问题 2018-12-19

    根据条件在spark数据集中添加列值

  • 提交了问题 2018-12-19

    如何在spark-jdbc应用程序中提供表名来读取RDBMS数据库中的数据?

  • 提交了问题 2018-12-19

    对spark2.4来说Hadoop的最佳版本

  • 提交了问题 2018-12-19

    维护历史表,其中包含有关userID-SQL的新数据的更新

  • 提交了问题 2018-12-19

    pyspark有条件地解析固定宽度的文本文件

  • 提交了问题 2018-12-19

    Spark 2.0+即使数据帧被缓存,如果其中一个源更改,它会重新计算?

  • 提交了问题 2018-12-19

    如何在pyspark中读取多级json?

  • 提交了问题 2018-12-19

    如何从sql(不是DSL)访问Spark嵌套结构字段

  • 提交了问题 2018-12-19

    扩展org.apache.spark.sql.Row功能:Spark Scala

  • 提交了问题 2018-12-19

    基于Spark的处理存储在SSD上的数据

  • 提交了问题 2018-12-19

    线程“main”中的异常java.lang.NoClassDefFoundError:scala / Product $ class

  • 提交了问题 2018-12-19

    数据集中的row_number。Row_number apis导致数据帧。

  • 提交了问题 2018-12-19

    在显示、计数和保存数据帧之间重新计算非确定性字段

  • 提交了问题 2018-12-19

    Apache Spark的perl API?

  • 提交了问题 2018-12-19

    PySpark无法访问使用StringIndexer添加的列

  • 提交了问题 2018-12-19

    从Spark中的一个热编码列中删除级别

  • 提交了问题 2018-12-19

    spark单元测试与模拟spark会议

  • 提交了问题 2018-12-19

    scala spark rdd joing两个具有相同id的表

  • 提交了问题 2018-12-19

    如何注册永久性spark udf?

  • 提交了问题 2018-12-19

    如何在Scala中向数组添加元素,并找到变量类型?

  • 提交了问题 2018-12-19

    按用户ID减少输入文件

  • 提交了问题 2018-12-19

    AttributeError:'SparkSession'对象没有属性'time'

  • 发表了文章 2018-12-17

    Apache Spark Meetup China 第1期 最全资料下载

    活动时间:2018年12月16日13:30-17:00 活动地点:杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位:阿里云、袋鼠云、云栖社区 主题介绍: 主题一、Spark优化实践-13:30 - 14:30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。

  • 发表了文章 2018-12-14

    # Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

    主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 ppt链接:https://yq.

  • 提交了问题 2018-12-12

    有没有办法在不同的服务器上运行master提交spark作业

  • 提交了问题 2018-12-12

    使用Apache Spark时如何处理数据库的背压?

暂无更多信息
  • 发表了文章 2019-01-08

    # Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

  • 发表了文章 2018-12-26

    # Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

  • 发表了文章 2018-12-21

    #Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-20

    #Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-17

    Apache Spark Meetup China 第1期 最全资料下载

  • 发表了文章 2018-12-14

    # Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-12

    # Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-07

    # Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-06

    #Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-05

    Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

  • 发表了文章 2018-12-05

    Apache Spark中国社群 有奖投稿通道 启动啦!

  • 发表了文章 2018-11-29

    SparkSQL实践与优化

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2019-06-03

    请问relational cache 与apache ignite有什么区别?

  • 回答了问题 2019-07-17

    请问relational cache 与apache ignite有什么区别?

    EMR Spark relational cache可以简单理解为基于Spark的物化视图,支持把视图数据放在内存中或是HDFS OSS上,用户可以通过relational cache加速查询,或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。 很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的,Spark 上直接用,不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。
    踩0 评论0
  • 提交了问题 2019-05-30

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

  • 提交了问题 2019-05-30

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

  • 提交了问题 2019-05-30

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

  • 提交了问题 2019-05-30

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

  • 回答了问题 2019-07-17

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

    2.0开始,shuffle的时候已经默认为 kryo 序列化了
    踩0 评论0
  • 回答了问题 2019-07-17

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

    你说某级别是隔离级别吗?隔离级别越高,并发性能越弱。对于 hive spark sql 这种并发很小的情况,支持多种隔离级别意义不是很大。 平台化,让我执行完sql以后,获取输出的表或分区,对碎片文件进行合并,合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并,用户很麻烦,换了这样的就解决了用户合并文件的问题。 平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法,都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。
    踩0 评论0
  • 回答了问题 2019-07-17

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

    可以用livy来提交spark-cluster的application,然后客户提交给livy,这块我们也做了一些工作
    踩0 评论0
  • 回答了问题 2019-07-17

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

    可以异步合并,小文件想解决还是合并,落地前合并,处理后合并。在write后repartition一下就可以设置文件数量,在你预估一个分区或处理文件的大小时可以把数量做成参数,比上blockSize生成一个合理的数字。也可以在落地后合并,这样不影响落地的效率不过两种方法都行,落地后就比如shuffle默认200个,那么就有200个小文件,那么可以在不使用这份数据的时候进行离线的合并,合并的方法有很多,基本上就是读出来再写进去,有几个点要注意:把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复,但不能全部删除,合并生成大文件过程中是否有其他程序写入新文件,文件中是否有tmp、success,文件存储格式要统一。 你是问关于 delta 的小文件,还是 spark sql 自己的一些小文件?还是什么?sparksql目前应该没有这个功能,我们这边可以看一下需求 如果是 hive 的事务表,hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后,delete update 都会产生小文件。处理思路是一样的,定期合并。备注:开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求,欢迎提出。 sparksql生成的数据小文件真的多,咱们可以通过元数据库,获取每个表下面每个分区下面的数据大小和文件个数,看看是要合并小文件还是要拆分大文件,然后sparksql读出来,然后再写进去,设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件,然后推荐系统会用这些实时处理的数据,是这样的吧?(是的,需求是这样)那推荐系统怎么用这些数据,具体是用什么工具知道吗?(实时读取hdfs文件,spark ML)了解了。看到你们这个主要还是 spark 的技术栈,应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。
    踩0 评论0
  • 提交了问题 2019-05-29

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

  • 提交了问题 2019-05-29

    Spark 【问答合集】

  • 提交了问题 2019-05-29

    各位大佬有遇到过类似问题吗,求指导

  • 回答了问题 2019-07-17

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

    你的函数是 (string,string){string+string}, 它就执行string+string
    踩0 评论0
  • 回答了问题 2019-07-17

    各位大佬有遇到过类似问题吗,求指导

    jar 不匹配 hadoop core 吧,自己去搜搜, 配置文件这个类的再哪个jar里
    踩0 评论0
  • 提交了问题 2019-05-23

    大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

  • 提交了问题 2019-05-23

    kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

  • 提交了问题 2019-05-23

    大家好,请教个问题,在sparkStreaming,我实现了StreamingListener 的接口,用于监控数据堆积的情况,在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常,异常是在下面源码截图中抛出来的,说我当前实时监控的线程还存在不允许stop ,有些不解,哪位大佬给指点下,是我操作不当?还是再做stop 时需要满足什么条件?

  • 提交了问题 2019-05-23

    问一个问题,有大神帮忙解答一下?spark如果在单机local模式下物化一张表,这个表会被物化到哪里去了

  • 提交了问题 2019-05-23

    有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢,join的时候根据号码关联,但是某个号码出现次数特别多

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息