暂无个人介绍
count(distinct)只有1个reduce。 为什么只有一个reducer呢,因为使用了distinct和count(full aggreates),这两个函数产生的mr作业只会产生一个reducer,而且哪怕显式指定set mapred.reduce.tasks=100000也是没用的。 当使用count(distinct)处理海量数据(比如达到一亿以上)时,会使得运行速度变得很慢,熟悉mr原理的就明白这时sql跑的慢的原因,因为出现了很严重的数据倾斜。
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
《阿里大数据之路》读书笔记:第二章 日志采集
阿里云大数据开发三面面经,已过,面试题已配答案
阿里云大数据开发一面面经,已过,面试题已配答案
阿里云大数据开发一面面经,已过,面试题已配答案
对数据仓库的一些概念总结,对比数据库、数据湖有什么区别
数据仓库分层
大数据开发(牛客)面试被问频率最高的几道面试题
大数据面试题V3.0,523道题,779页,46w字
Kafka的作用?Kafka的组件?适用场景?
数据仓库面试知识总结