开发者社区> 问答> 正文

Mapreduce和Spark的不同之处是是什么啊?

Mapreduce和Spark的不同之处是是什么啊?

展开
收起
游客vwuxaq6iqaowc 2021-12-06 21:10:57 279 0
1 条回答
写回答
取消 提交回答
  • spark用户提交的任务:application 一个application对应一个sparkcontext,app中存在多个job 每触发一次action操作就会产生一个job 这些job可以并行或串行执行 每个job中有多个stage,stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的 每个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行 executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算。 hadoop的job只有map和reduce操作,表达能力比较欠缺 在mr过程中会重复的读写hdfs,造成大量的io操作,多个job需要自己管理关系。 spark的迭代计算都是在内存中进行的 API中提供了大量的RDD操作如join,groupby等 通过DAG图可以实现良好的容错

    2021-12-06 21:13:36
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载