分布式(hadoop)内核研发面试指南

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。

最近一直在看简历,面试同学,发现符合要求的很少。本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。

如果 以下的问题不能很好回答,还是多多学习啊。 如果很好回答,对阿里云有兴趣,欢迎找我。

面试:

基础能力

这里涉及一般为

  • 语言基础知识(一般需要在某语言2年以上经验)

    • 比如:JVM的GC算法,JAVA多线程并发机制,线程安全机制,OOM咋办,core了咋办
  • 算法基础知识,冒泡排序、链表、树、线性回归……
  • 分布式理论:数据分布方式、Lease机制、日志技术、两阶段提交、CAP理论、Quorum机制
  • 操作系统
    ……

复杂工程能力

  • 就是有没有做过,多人协作的项目
  • 你在其中什么角色? 一般项目有啥难点,遇到难点怎么办?

逻辑思维能力及表达能力

  • 考查思维,思路。需要清楚的回答上述的一些问题,不卑不亢。

潜力

  • 就是发展潜力,如果人比较有冲劲,思维比较活跃,目标明确,对未来规划也比较明确,潜力就比较大

稳定性(我们更加看重持续发展的同学,不是打一枪就跑了)

  • 为什么你要从这家公司离职?
  • 你打算进来,2年后,你想有什么样的改变?

hadoop相关(专家级,一般是开放式的)

比如:

  • 分析时数据倾斜了怎么办?
  • hdfs写的链路是啥?
  • 集群的利用率不高,为什么?怎么调查?
  • hbase二级索引是咋回事情?
  • 数据高可靠,服务高可用怎么做?
  • system占用率比较高,一般啥原因?
  • 如果让你设计一个spark,你打算怎么设计?
  • 流式计算怎么流控?
  • 实时计算与离线怎么混合部署?
  • 一车分布式理论的知识?

笔试:

主要考察编码能力,一般来讲,经常写代码的同学可能比较上手。
一般为5个题目,其中有2个算法题目。笔试过的同学80%都说比较简单,但是做起来就是不太理想。这个要注意平时写代码要记住关键的词(因为写代码没有自动补全,基本就是纸上或者在记事本上写的)

加分项

  • 一直在写技术博客,比如:spark源码分析
  • 参与社区项目开发,比如:贡献spark、hbase源码
  • 发表顶级论文

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

目录
相关文章
|
2月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
46 2
|
2月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
50 1
|
2月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
52 1
|
2月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
38 1
|
2月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
51 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
52 1
|
2月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
51 0
|
4月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
234 2
|
4月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
114 1
|
4月前
|
存储 缓存 分布式计算