开发者学堂课程【Hadoop 快速入门:Hadoop 大数据技术生态体系】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/92/detail/1399
Hadoop 大数据技术生态体系
大数据技术生态体系如图所示:
数据来源层:数据从哪里来,都有什么类型。
1)文件日志(半结构化结构):浏览的网页和内容信息都保存在这里。关于半结构化数据,最后只能保存在数据库中。
2)视频、ppt 等非结构化数据。
数据传输层:
1)Sqoop 数据传递:负责从数据库(结构化数据)导出数据。
2)Flume 日志收集:负责从文件日志(半结构化数据)中读取数据,十分专业。
数据存储层:
1)HDFS 文件存储:最为强大的文件存储器。
2)Kafka 消息列队中也能存储一些文件,大概默认为 1G。
3)HBase 非关系型数据库:一般以 <k,v> 一对的形式存储数据。
资源管理层:
都由 YARN 来负责调配。
数据计算层:
1)MapReduce 离线计算:基于 Hadoop
l Hive 数据查询
l Mahout 数据挖掘
2)Spark Core 内存计算:基于内存
l SparkMlib 数据挖掘
l Spark R 数据分析
l Spark Sql 数据查询
实时计算:
1)Spark Streaming 实时计算
2)Storm 实时计算