电商项目之 Flume 安装配置参数讲解|学习笔记

简介: 快速学习电商项目之 Flume 安装配置参数讲解

开发者学堂课程【新电商大数据平台2020最新课程电商项目之 Flume 安装配置参数讲解】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/640/detail/10512


电商项目之 Flume 安装配置参数讲解

 

安装配置参数讲解

上节讲述了 Azkaban 的案例,并进行演示,调动过程从编写脚本到最后的脚本实现,到程序的运行,整体的过程已经实现完了。并且说明了如何编写任务,因为 Azkaban 本身是一个工作器,它里面一定包含一些定时任务。会根据它的 webUI 来完成定时任务就可以时间时自己选择。

电商的数据采集,现在有三行数据,业务数据通过 school 已经搞定,完全的导入到文件中形成 odsr,现在对 web 数据进行一个广告数据导入。

导入过程:

在文件中有一个1.cs 文件,这个文件是一个要进行采集的文件。

文件重要采集的数据如下图,存的是一些投放数据,这些数据需要逐一导入进去

image.png

导入:

是要使用 Flume采集,采集到 ods 就可以,这是 excel 表格的形式,这样子把规格的数字上传到服务器上。连接服务器,先进行上传,但是需要把 Flume 安装一下

这块安装的是 Flume1.8版本,如下图

image.png

直接输入语句,

tar -zxcf apache-flow1.8.0-bin.tar.gz -C /usr/local/ 进行解压,之前已经解压过,现在直接进入文件夹。可以看到有一个 flume1.8

image.png

用语句 mv 将名字进行更改,之后用 cd 进入大盘 flume1.8。现在的采集过程需要用到 flume 的 sink、source 等,在这里默认大家会使用 flume。

如果不会,在 flume1.8中文手册上,有对应的 flume sink、flume source、flume channel,source 选择是 Taildir source。

因为可以是监控指定的一些文件,而不是所有的文件,这个可以监控一个文件夹的目录中所有的文件,当然这个所有文件要设置采集的文件格式。

这个 Taildir source 有配置的一些参数,最大的特点就是实现一个断点续存,原因是这个内容可以存一些原数据,会以任意阶段的形式存在文件的一个位置,然后把原数据的文件保存就可以,当机器宕机或挂掉后会在原来的机器继续读取来实现断点续存。重新启动后会从原先的位置进行读取。

 image.png

Channel 就是和 source 进行绑定的,type 是使用的类型是 Taildir,还有 filegroup 这个可以设置组,第四个是监控的一个路径,还有原数据,保存最近一次的文件。

配置采集的文件:

先进入 cd conf/文件但不操作,第一次检查的话会是一个.sh 文件,是一个内部的文件,需要进行一个修改。

在语句中输入 vim flume-env.sh,在里面配置一个jdk即可

image.png

配置完后保存,创建一个新的 agent.conf,用语句 vim agent.conf 如下图。

image.png

创建一个新的是没有任何东西的,在这里是已经配置好的,是通过文档进行的配置,这个文档可以参考,包括一些高可用文件,以及 source。

打开10项目开发的内容,有对应的配置文件,但这个文件是 h1的配置文件,但要进行修改因为使用的是单机版。

所以需要一个个进行修改,首先先配置服务器的 source、channel、sink 的别名;

第二是配置 source 的配置原以及 channel 管道,这里选择的是内存 channel,还有大小;

第三是监控的文件,这并不是监控的文件而是一个对机,比如 sink 和 channel 对接的一个整合,相当于告诉channel 接受的是哪一个 sink 的数据,监控文件夹使用的类型是 Taildir;

第五是元数据保存位置,就是所要采集的文件夹、数据的文件位置,比如说第一个是元数据的保存位置,这个文件不需要创,只用给出位置以及相应的数据就行,再写上对应的名字,第二个上是组织的f1,如果有多个文件夹可以配置成 f2f3f4。

第三个是配置文件夹得路径,采集得是 flume1.8下所有csv文件,之后就是配置 sink,使用得是 sh.sink,直接将数据存储到 azkaban 上,设置类型是 hdfs,之后是hdfs保存的路径买这个路径要保持一样,到最后还要采集到后面得表中,直接放入当前得文件加就行,直接映射即可。

接下来采集得文件类型是 dataStream 流得形式,使用 text 得形式书写。

之后得两行设置0,是因为输出,flume 采集得时候会使用大量的写文件,需要把写文件合并成一个,就要设置为0,就会形成一个文件。之后配置 sink 和 channel 的对接文件,要告诉 sink 是哪一个 channle 对接,最后配置前缀和后缀,log 文件,前缀使用 true 的形式保存的,这就是单机版的配置。

image.png

到这整体来说搭建成功,它本身就是一个搭建工具,所以不太麻烦,最后测试一下采集,直接使用就行,如果有问题就解决就行。

相关文章
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
980 0
|
数据采集 消息中间件 存储
Flume 快速入门【概述、安装、拦截器】
Apache Flume 是一个开源的数据采集工具,用于从各种数据源(如日志、网络数据、消息队列)收集大规模数据,并将其传输和加载到数据存储系统(如 HDFS、HBase、Hive)。Flume 由数据源(Source)、通道(Channel)、拦截器(Interceptor)和接收器(Sink)组成,支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器,拦截器允许预处理数据。Flume 适用于构建数据管道,整合分散数据到中心存储系统,便于分析和报告。
2423 3
|
存储 监控 Linux
Flume【部署 02】Flume监控工具Ganglia的安装与配置(CentOS 7.5 在线安装系统监控工具Ganglia + 权限问题处理 + Flume接入监控配置 + 图例说明)
【2月更文挑战第17天】Flume【部署 02】Flume监控工具Ganglia的安装与配置(CentOS 7.5 在线安装系统监控工具Ganglia + 权限问题处理 + Flume接入监控配置 + 图例说明)
377 1
Flume【部署 02】Flume监控工具Ganglia的安装与配置(CentOS 7.5 在线安装系统监控工具Ganglia + 权限问题处理 + Flume接入监控配置 + 图例说明)
|
存储 监控 Linux
Ganglia【部署 01】Flume监控工具Ganglia的安装与配置(CentOS 7.5 在线安装系统监控工具Ganglia + 权限问题处理 + Flume接入监控配置 + 图例说明)
Ganglia【部署 01】Flume监控工具Ganglia的安装与配置(CentOS 7.5 在线安装系统监控工具Ganglia + 权限问题处理 + Flume接入监控配置 + 图例说明)
382 0
|
数据采集 消息中间件 缓存
Apache Flume及快速安装
Apache Flume及快速安装
262 0
|
消息中间件 存储 Java
flume的安装和配置
flume的安装和配置
|
数据采集 JSON 监控
网站流量日志Flume收集--新组件taildir source介绍| 学习笔记
快速学习网站流量日志Flume收集--新组件taildir source介绍
网站流量日志Flume收集--新组件taildir source介绍| 学习笔记
|
数据采集 缓存 JSON
网站流量日志 Flume 收集--配置文件编写和实操| 学习笔记
快速学习网站流量日志 Flume 收集--配置文件编写和实操
网站流量日志 Flume 收集--配置文件编写和实操| 学习笔记
|
监控 开发工具 开发者
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
快速学习网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
|
存储 Java Linux
Apache Flume-- 自定义 sink(扩展)--数据写入本地|学习笔记
Apache Flume-- 自定义 sink(扩展)--数据写入本地
Apache Flume-- 自定义 sink(扩展)--数据写入本地|学习笔记

热门文章

最新文章