游客dew6wbsuwerqa_个人页

个人头像照片 游客dew6wbsuwerqa
个人头像照片 个人头像照片
2
1181
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2022年04月

2022年03月

  • 发表了文章 2022-04-21

    反了!居然让我教她自动化测试!

  • 发表了文章 2022-04-21

    破壁人AI百度:科技公司反内卷的典型样本

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2022-11-01

    spark 的架构是什么样的呢?

  • 回答了问题 2022-11-01

    RDD中的DataFrame有什么特点吗?

    1.分布式数据集合2.内存中结构化的表3.带有Schema信息4.更丰富的API 5.从不同的数据源获得数据(SQL/Hive/MongoDB/JSON/CSV/RDD/.….
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD中stage内部为什么要尽可能多地包含具有窄依赖关系的transformations操作呢?

    每个阶段stage内部尽可能多地包含一组具有窄依赖关系的transformations操作,以便将它们流水线并行化(pipeline)。边界有两种情况:一是宽依赖上的Shuffle操作;二是已缓存分区。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD转换或者动作时出现stage 是什么意思啊?

    RDD在做转换或者动作时,分stage进行,Stage 之间的依赖关系则形成了有向无环图,Spark 会根据 RDD 之间的依赖关系将 DAG 图划分为不同的阶段
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD中的窄依赖有什么特点吗?

    因为每一个RDD只对应其前面RDD的一个分区,如果其前面的RDD 丢失,窄依赖只需计算丢失RDD的父分区,不同节点间可以并行计算,能更有效地进行节点的恢复。
    踩0 评论0
  • 回答了问题 2022-11-01

    如果是两个RDD的表在进行合并,合并的基础是什么?

    如果是两个RDD的表在进行合并,合并的基础是这两个表都用某种hash算法做分区。因为是用hash算法来做的,所以有关相同用户的数据只会出现在相同的区。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD中的宽依赖有什么特点吗?

    宽依赖往往意味着Shuffle操作,可能涉及多个节点的数据传输,当RDD分区丢失时,Spark会对数据进行重算。 宽依赖中,重算的子RDD分区往往来源自多个父RDD分区,其中只有一部分数据用于恢复,造成了不必要的冗余,甚至需要整体重新计算。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD动作中的Wide Dependencies是什么意思呢?

    Wide Dependencies是宽依赖,就是父RDD的每个分区都可能被多个子RDD分区所使用。因为没有分区,需要把所有数据拿出来做合并。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD动作中的Narrow dependencies 是什么意思呢?

    Narrow dependencies是窄依赖,也就是父RDD的每个分区只被子RDD的一个分区所使用,例如 map, union等等。
    踩0 评论0
  • 回答了问题 2022-11-01

    如果数据在一个大的RDD中不做分区,怎么样对一个记录用户订阅信息的表周期性的合并、查询?

    如果带分区,就会把该分区用一定的逻辑去处理,Spark知道其为哈希分区,在执行join时会利用这一信息。
    踩0 评论0
  • 回答了问题 2022-11-01

    数据在一个大的RDD中不做分区,如何对一个记录用户订阅信息的表周期性的合并、查询呢?

    数据在一个大的RDD中,不做分区,join操作不知道数据集中的主键如何分区,userData需要周期性地进行Hash并Shuffle,即使其没发生任何变化。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD中为什么会有 Shuffle这个动作产生呢?

    因为RDD可能在多个集群上进行的,所以其操作会有一个Shuffle的动作,以及每一个map在执行时,会按照指定的逻辑,将他们产生的结果写到不同的地方。并且会有不同的Reduce去读不同的地方。
    踩0 评论0
  • 回答了问题 2022-11-01

    Spark程序的流程是什么样的啊?

    基本流程示例 -从外部数据创建一些作为输入的RDD -使用类似filter之类的变换来定义出新的RDD -要求Spark对需要重用的任何中间RDD进行persist -启用类似count之类的动作进行并行计算
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD 动作中的count有什么作用吗?

    count是计算RDD里面元素的数量,例如下面的代码: print 'Input had” + badLinesRDD.count() + 'concerning lines'
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD 动作中的reduce是怎么执行的啊?下面的代码是什么意思呢?

    reduce的意思是对于RDD里面的元素x和y,计算x+y,这是一个lambda表达式,也就是把一维数组中的元素全部加起来得到一个值sum,这个值就不再是一个RDD(就是一个单一的值)。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD 变换中的union方法是如何使用的?

    union的意思是把两个RDD 合在一起,用法如下: badLinesRDD = errorsRDp.union( warningsRDD)
    踩0 评论0
  • 回答了问题 2022-11-01

    以下有关过滤这个动作的代码是什么意思呢?

    filter是在过滤,代码中有一个输入的RDD,对于该输入RDD里面的每一个元素,过滤其中包含error的元素,并放在一个errorRDD中,包含warning的放在warningsRDD中。
    踩0 评论0
  • 回答了问题 2022-11-01

    以下使用了flatMap方法的代码是什么意思?

    有两个字符串,对于lines里的每一个元素,对line的每一个元素断开,断开后会产生一个结果,但是不想得到像二维数组一样的结果
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD 变换中的flatMap 动作有什么作用吗?

    为每个输入元素产生多个输出元素(不是产生一对一的元素),例如下面的代码,有两个字符串,对于lines里的每一个元素,对line的每一个元素断开,断开后会产生一个结果,但是不想得到像二维数组一样的结果,所以用 flatMap。flat就是摊平的意思,也就是把元素断开后摊平变成一维数组一样的RDD。
    踩0 评论0
  • 回答了问题 2022-11-01

    RDD 变换中的map 如何使用?

    例如下面的代码: nums = sc.parallelize([1,2,3,4]) squared = nums.map( lambdax * x).collect() map 这个动作中执行的操作是自己写的,最终是要产生一个新的RDD。也就是对nums这个RDD里面包含的四个值计算,对x计算为x*x,然后把结果放在一个集合类中,返回squared这样一个RDD。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息