备案控制台

开发者社区华章出版社文章正文

《Flume日志收集与MapReduce模式》一1.6　小结

2017-05-02 993

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章，第1.6节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.6　小结

本章介绍了Flume尝试解决的问题，如何以一种易于配置且可靠的方式将数据加载进Hadoop集群中以进行数据处理。本章还介绍了Flume代理及其逻辑组件，包括事件、源、通道选择器、通道、接收处理器和接收器。
下一章将会更加详细地介绍这些主题，特别是每个组件最为常用的实现。就像其他优秀的开源项目一样，几乎所有这些组件都是可扩展的，如果它们无法满足你的需求，那么你可以自行对其进行扩展。

文章标签：

日志服务

监控

分布式计算

关键词：

mapreduce模式

开源大数据平台 E-MapReduce模式

开源大数据平台 E-MapReduce flume

Flume模式

Flume日志收集

相关实践学习

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

华章计算机

目录

相关文章

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

297 2 2

让线程再跑一会

|

分布式计算 Hadoop Java

【集群模式】执行MapReduce程序-wordcount

【集群模式】执行MapReduce程序-wordcount

让线程再跑一会

141 1 1

让线程再跑一会

|

分布式计算 Java Hadoop

【本地模式】第一个Mapreduce程序-wordcount

【本地模式】第一个Mapreduce程序-wordcount

让线程再跑一会

209 0 0

阿甘兄

|

分布式计算资源调度 Hadoop

23 MAPREDUCE程序运行模式

23 MAPREDUCE程序运行模式

阿甘兄

163 0 0

Redamancy

|

分布式计算资源调度 Hadoop

Hadoop运行模式（二）、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的

ssh文件夹下（~/.ssh）的文件功能解释、ssh连接时出现Host key verification failed的解决方法、免密登录原理、将公钥拷贝到要免密登录的目标机器上、NameNode和SecondaryNameNode不要安装在同一台服务器、ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上、Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值、.

Redamancy

781 1 1

Hadoop运行模式（二）、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的

云祁

|

消息中间件缓存监控

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

云祁

620 0 1

【Flume】（一）Flume 高可用的、高可靠的、分布式日志收集系统1

安然AR

|

数据采集缓存大数据

大数据数据采集的数据采集（收集/聚合）的Flume之数据采集流程的Selector的多路复用模式

在大数据处理和管理中，数据采集是非常重要的一环。为了更加高效地进行数据采集，Flume作为一种流式数据采集工具得到了广泛的应用。其中，Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式，讲解其数据采集流程。

安然AR

312 0 0

安然AR

|

数据采集缓存大数据

大数据数据采集的数据采集（收集/聚合）的Flume之数据采集流程的Selector的复制模式

在大数据处理和管理中，数据采集是非常重要的一环。为了更加高效地进行数据采集，Flume作为一种流式数据采集工具得到了广泛的应用。其中，Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式，讲解其数据采集流程。

安然AR

252 0 0

让线程再跑一会

|

分布式计算 Ubuntu Hadoop

【集群模式】执行MapReduce程序-wordcount

因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例，所以需要传递的是 HDFS中的文件路径，所以我们需要修改上一节【本地模式】中 WordCountRunner类的代码

让线程再跑一会

211 0 0

让线程再跑一会

|

分布式计算 Java Hadoop

【本地模式】第一个Mapreduce程序-wordcount

也就是在windows环境下通过hadoop-client相关jar包进行开发的，我们只需要通过本地自己写好MapReduce程序即可在本地运行。

让线程再跑一会

237 0 0

华章出版社

热门文章

最新文章

Flume NG 简介及配置实战

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

实时日志收集-查询-分析系统(Flume+ElasticSearch+Kibana)

阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务（归档Maxcompute）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

flume源码学习7-SinkProcessor相关类

Flume 读取本地数据输出到 HDFS/Kafka

Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例)

大数据平台搭建（容器环境）——Flume1.9 安装配置

大数据组件Flume总结（原创）

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案

阿里云E-MapReduce集群不同计算引擎sleep task使用笔记

阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性

伪分布式安装部署（运行MapReduce程序）

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结（二）

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结（一）

Hadoop基础学习---6、MapReduce框架原理（二）

Hadoop基础学习---6、MapReduce框架原理（一）

Hadoop基础学习---5、MapReduce概述和WordCount实操（本地运行和集群运行）、Hadoop序列化

相关课程

更多

Flume基础应用实战 - 企业全场景解决方案

Hadoop 分布式计算框架 MapReduce

数据采集系统 Flume 快速入门

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓