Hadoop发展史:
- Lucene —— Google是Lucene思想之源,基于GFS-> HDFS、Map-Reduce -> MR、BigTale -> Hbase ,核心人物:Doug Cutting;
- 三大发新版本:Apache、Cloudera、Hortonworks
Hadoop的优势(4高)
- 高效:MapReduce思想,并行作业
- 高稳定:多个数据副本
- 高容错性:自动把失败的任务重新分配
- 高扩展:扩展节点
Hadoop1.x和Hadoop2.x的区别
- Hadoop1.x 由MapReduce(计算+资源调度)、HDFS(数据存储)、Common(辅助工具)组成
- Hadoop2.x 由MapReduce(计算)、Yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)组成
- Hadoop2.x 将计算和资源调度成功解耦
HDFS架构
- NameNode(nn):存储文件的源数据(比如文件名,文件目录结构)
- DataNode(dn):存储文件的块数据(实实在在的数据)
- Secondary NameNode(2nn):NameNode的快照
YARN架构
节点-》服务器
- ResoureManager(RM):负责整个集群资源的分配调度(1)处理客户端请求;(2)监控NodeManager;(3)起订或监控ApplicationMater ;(4)资源的分配与调度
- NodeManager(NM):负责整个节点的资源(1)管理单个节点资源;(2)处理来自ResourceManager的命令;(3)处理来自ApplicationMaster的命令
- ApplicationMaster:负责某个具体任务的资源等;如数据的切分;申请资源给内部任务,任务的监控额容错
- Container : 为ApplicationMaster服务,抽象出来的资源,包括内存、CPU、磁盘、网络。
MapReduce架构
分两个阶段:Map(分)和reduce(聚合)
大数据技术生态体系