【赵渝强老师】大数据日志采集引擎Flume

简介: Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。

b400.png

Apache Flume支持采集各类数据发送方产生的日志信息,并且可以将采集到的日志信息写到各种数据接收方。其核心是把数据从数据源(Source)收集过来,在将收集到的数据送到指定的目的地(Sink)。为了保证输送的过程一定成功,在送到目的地(Sink)之前,会先缓存数据(Channel),待数据真正到达目的地(Sink)后,Flume再删除自己缓存的数据。


一、 Apache Flume的体系架构


Flume 分布式系统中核心的角色是Agent。Agent 本身是一个 Java 进程,一般运行在日志收集节点。Flume采集系统就是由一个个Agent所连接起来形成。每一个Agent相当于一个数据传递员,内部有三个组件:

 

  • Source:采集源,用于跟数据源对接,以获取数据;
  • Sink:下沉地,采集数据的传送目的,用于往下一级 agent 传递数据或者往最终存储系统传递数据;
  • Channel:agent 内部的数据传输通道,用于从 source 将数据传递到 sink;


在整个数据的传输的过程中,流动的是Event。它是Flume内部数据传输的最基本单元。Event将传输的数据进行封装。如果是文本文件,通常是一行记录,Event也是事务的基本单位。Event从 Source,流向 Channel,再到 Sink,本身为一个字节数组,并可携带 headers的头信息。Event代表着一个数据的最小完整单元,从外部数据源来,向外部的目的地去。一个完整的 Event包括:event headers、event body、event 信息,其中Event信息就是Flume 收集到的日记记录。视频讲解如下:


下图展示了Flume的体系架构。

image.png


二、 【实战】Apache Flume的安装和部署


从Flume的官方网站上下载安装介质,这使用的版本是1.9.0。下面通过具体的步骤来演示Flume的安装和部署。


(1)将Flume的安装包解压到/root/training/目录下。

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C ~/training/


(2)重命名解压缩的文件夹为Flume。

cd /root/training
mv apache-flume-1.9.0-bin/ flume/


(3)进入Flume下的conf文件夹将文件flume-env.sh.template重命名为flume-env.sh。

cd /root/training/flume/conf/
mv flume-env.sh.template flume-env.sh


(4)修改flume-env.sh中的JAVA HOME配置参数。

export JAVA_HOME=/root/training/jdk1.8.0_181


(5)保存退出并验证Flume的版本。

cd /root/training/flume
bin/flume-ng version


三、 【实战】运行Flume的第一个任务


下面通过一个简单的示例来演示如何Flume采集数据。

(1)在Flume安装目录创建myagent目录并在myagent目录下创建配置文件a1.conf。

#定义agent名, source、channel、sink的名称
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#具体定义source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 1234
#具体定义channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
#具体定义sink
a1.sinks.k1.type = logger
#组装source、channel、sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1


(2)进入Flume的安装目录执行下面的语句命令启动Agent。

bin/flume-ng agent -n a1 -f myagent/a1.conf \
-c conf -Dflume.root.logger=INFO,console
# 通过打印出来的日志的最后一行,如下:
Created serverSocket:sun.nio.ch.ServerSocketChannelImpl[/127.0.0.1:1234]
# Flume已经成功地在本机的1234端口上创建了Socket Server。
# 这时候只要有消息从本机的1234端口上发送过来,就可以被Flume的Source捕获。


(3)单独启动一个Netcat命令终端运行在本机的1234端口上。

nc 127.0.0.1 1234


(4)在netcat中输入一些内容并回车;观察Flume命令行窗口的变化。如下图所示。

image.png


可以看到在Flume终端的日志中,输出了如下的信息:

[INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] 
Event: { headers:{} body: 48 65 6C 6C 6F 20 46 6C 75 6D 65 Hello Flume }

Flume通过Netcat Source采集到了相应的数据信息,并直接打印在Flume的命令行终端中。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
存储 Kubernetes 监控
Kubernetes日志管理:使用Loki进行日志采集
通过以上步骤,在Kubernetes环境下利用LoKi进行有效率且易于管理地logs采集变成可能。此外,在实施过程中需要注意版本兼容性问题,并跟进社区最新动态以获取功能更新或安全补丁信息。
285 16
|
4月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
537 1
|
5月前
|
JSON 安全 网络安全
LoongCollector 安全日志接入实践:企业级防火墙场景的日志标准化采集
LoonCollector 是一款轻量级日志采集工具,支持多源安全日志的标准化接入,兼容 Syslog、JSON、CSV 等格式,适用于长亭 WAF、FortiGate、Palo Alto 等主流安全设备。通过灵活配置解析规则,LoonCollector 可将原始日志转换为结构化数据,写入阿里云 SLS 日志库,便于后续查询分析、威胁检测与合规审计,有效降低数据孤岛问题,提升企业安全运营效率。
|
4月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL数据库的WAL日志与数据写入的过程
PostgreSQL中的WAL(预写日志)是保证数据完整性的关键技术。在数据修改前,系统会先将日志写入WAL,确保宕机时可通过日志恢复数据。它减少了磁盘I/O,提升了性能,并支持手动切换日志文件。WAL文件默认存储在pg_wal目录下,采用16进制命名规则。此外,PostgreSQL提供pg_waldump工具解析日志内容。
388 0
|
存储 分布式计算 监控
【Flume】Flume 监听日志文件案例分析
【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析
|
存储 运维 监控
【Flume】flume 日志管理中的应用
【4月更文挑战第4天】【Flume】flume 日志管理中的应用
|
消息中间件 数据采集 SQL
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
|
存储 数据采集 数据处理
【Flume拓扑揭秘】掌握Flume的四大常用结构,构建强大的日志收集系统!
【8月更文挑战第24天】Apache Flume是一个强大的工具,专为大规模日志数据的收集、聚合及传输设计。其核心架构包括源(Source)、通道(Channel)与接收器(Sink)。Flume支持多样化的拓扑结构以适应不同需求,包括单层、扇入(Fan-in)、扇出(Fan-out)及复杂多层拓扑。单层拓扑简单直观,适用于单一数据流场景;扇入结构集中处理多源头数据;扇出结构则实现数据多目的地分发;复杂多层拓扑提供高度灵活性,适合多层次数据处理。通过灵活配置,Flume能够高效构建各种规模的数据收集系统。
339 0
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
280 2
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
255 1

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 日志服务