Preface?前 言
Hadoop是个非常优秀的开源工具,可以将海量的非结构化数据转换为易于管理的内容,从而更好地洞察客户需求。它很便宜(几乎是免费的),只要数据中心有空间和电源,它就能够水平扩展,并且可以处理传统数据仓库难以解决的问题。需要注意的是,你得将数据填入Hadoop集群中,否则你所得到的只不过是昂贵的热量产生器而已。你很快就会发现,一旦对Hadoop的使用经过 “试验性”阶段后,你就需要工具来自动化地将数据填充到集群中。过去,你需要自己找到该问题的解决方案,但现在则不必如此!Flume一开始是Cloudera的项目,当时它们的集成工程师需要一次又一次地为客户编写工具来实现数据的自动化导入。时至今日,Flume已经成为Apache软件基金会的项目,并且处于活跃开发状态中,很多用户已经将其用于产品环境多年。
本书将会通过Flume的架构概览与快速起步指南帮助你迅速掌握Flume。接下来将会深入介绍Flume众多更加有用的组件的细节信息,包括用于即时数据记录持久化的重要的文件通道、用于缓存并将数据写到HDFS中的HDFS接 收 器,以及Hadoop分布式文件系统。由于Flume内置很多模块,因此上手Flume时你所需要的唯一工具就是一个用于编写配置文件的文本编辑器而已。
通过阅读上篇,你将掌握构建高可用、容错、流式数据管道(用于填充Hadoop集群)所需的一切知识。
虽然网上关于Hadoop的资料已经汗牛充栋,但大多数都止步于表面或是仅针对某个具体问题给出解决方案。下篇则对Hadoop以及MapReduce编程进行了简明介绍,旨在让你快速起步并对Hadoop编程有个总体印象,打好基础才能深入探索每一类MapReduce问题。
本书主要内容
第1章介绍了Flume及其将会解决的问题空间(特别是与Hadoop相关的部分),架构概览介绍了将会在后续章节中讨论的各个组件。
第2章帮助你尽快上手Flume,包括下载Flume、创建“Hello World”配置并运行。
第3章介绍了大多数人都会用到的两个主要通道以及每个通道可用的配置选项。
第4章详细介绍了如何使用HDFS Flume输出,包括压缩选项以及数据格式化选项。此外还介绍了故障恢复选项以创建更为健壮的数据管道。
第5章介绍了几种Flume输入机制及其配置选项。此外,还介绍了如何根据数据内容在不同的通道间切换,这样就可以创建复杂的数据流了。
第6章介绍了如何即时转换数据以及如何从负载中抽取信息来与通道选择器搭配以进行路由判定。还介绍了如何通过Avro序列化对Flume代理进行分层,如何将Flume命令行作为独立的Avro客户端进行测试以及手工导入数据。
第7章介绍了内外部用于监控Flume的各种方式,包括Monit、Nagios、Ganglia以及自定义钩子。
第8章超越了Flume配置与使用本身,对实时分布式数据收集的各个方面进行了讨论。
第9章介绍了如何使用Java(不使用MapReduce)编写一个单词统计应用。我们会将其与MapReduce模型进行比对。
第10章介绍了如何使用MapReduce编写单词统计应用以及如何使用Hadoop本地模式运行。
第11章介绍了如何在分布式环境中安装Hadoop并运行之前的Wordcount job。
第12章介绍了如何编写一个Hadoop数据格式化器来读取Amazon数据格式以作为记录而非逐行读取数据。
第13章介绍了如何通过MapReduce处理Amazon数据,生成直方图数据以及使用gnuplot来绘制结果。
第14章介绍了如何通过MapReduce连接两个数据集。
第15章介绍了如何处理Amazon数据以及通过MapReduce实现差集。此外还介绍了如何通过类似的方法实现其他的集合操作。
第16章介绍了如何通过MapReduce统计两个条目同时出现的次数(交叉相关)。
第17章介绍了如何处理Amazon数据以及通过反向索引实现简单的搜索。
第18章介绍了如何通过MapReduce实现图的遍历。
第19章介绍了如何通过Kmeans算法建立数据集的集群。集群会将数据划分为各个小组,这样每个分组中的条目都是类似的,根据不同的距离度量方法,不同分组中的条目是不同的。
本文出版自《华章出版社》 作者: [美] 史蒂夫·霍夫曼(Steve Hoffman) 斯里纳特·佩雷拉(Srinath Perera)
-------------------------
谢谢楼主分享
-------------------------
谢谢楼主分享
-------------------------
-------------------------
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。