电商项目之 Flume 安装配置参数讲解｜学习笔记-阿里云开发者社区

电商项目之 Flume 安装配置参数讲解｜学习笔记

2022-11-16 203

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习电商项目之 Flume 安装配置参数讲解

开发者学堂课程【新电商大数据平台2020最新课程：电商项目之 Flume 安装配置参数讲解】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/640/detail/10512

电商项目之 Flume 安装配置参数讲解

安装配置参数讲解

上节讲述了 Azkaban 的案例，并进行演示，调动过程从编写脚本到最后的脚本实现，到程序的运行，整体的过程已经实现完了。并且说明了如何编写任务，因为 Azkaban 本身是一个工作器，它里面一定包含一些定时任务。会根据它的 webUI 来完成定时任务就可以时间时自己选择。

电商的数据采集，现在有三行数据，业务数据通过 school 已经搞定，完全的导入到文件中形成 odsr，现在对 web 数据进行一个广告数据导入。

导入过程：

在文件中有一个1.cs 文件,这个文件是一个要进行采集的文件。

文件重要采集的数据如下图，存的是一些投放数据，这些数据需要逐一导入进去

导入：

是要使用 Flume采集，采集到 ods 就可以，这是 excel 表格的形式，这样子把规格的数字上传到服务器上。连接服务器，先进行上传，但是需要把 Flume 安装一下

这块安装的是 Flume1.8版本，如下图

直接输入语句，

tar -zxcf apache-flow1.8.0-bin.tar.gz -C /usr/local/ 进行解压,之前已经解压过，现在直接进入文件夹。可以看到有一个 flume1.8

用语句 mv 将名字进行更改，之后用 cd 进入大盘 flume1.8。现在的采集过程需要用到 flume 的 sink、source 等，在这里默认大家会使用 flume。

如果不会，在 flume1.8中文手册上，有对应的 flume sink、flume source、flume channel，source 选择是 Taildir source。

因为可以是监控指定的一些文件，而不是所有的文件，这个可以监控一个文件夹的目录中所有的文件，当然这个所有文件要设置采集的文件格式。

这个 Taildir source 有配置的一些参数，最大的特点就是实现一个断点续存，原因是这个内容可以存一些原数据，会以任意阶段的形式存在文件的一个位置，然后把原数据的文件保存就可以，当机器宕机或挂掉后会在原来的机器继续读取来实现断点续存。重新启动后会从原先的位置进行读取。

Channel 就是和 source 进行绑定的，type 是使用的类型是 Taildir，还有 filegroup 这个可以设置组，第四个是监控的一个路径，还有原数据，保存最近一次的文件。

配置采集的文件：

先进入 cd conf/文件但不操作，第一次检查的话会是一个.sh 文件，是一个内部的文件，需要进行一个修改。

在语句中输入 vim flume-env.sh,在里面配置一个jdk即可

配置完后保存，创建一个新的 agent.conf,用语句 vim agent.conf 如下图。

创建一个新的是没有任何东西的，在这里是已经配置好的，是通过文档进行的配置，这个文档可以参考，包括一些高可用文件，以及 source。

打开10项目开发的内容，有对应的配置文件，但这个文件是 h1的配置文件，但要进行修改因为使用的是单机版。

所以需要一个个进行修改，首先先配置服务器的 source、channel、sink 的别名；

第二是配置 source 的配置原以及 channel 管道，这里选择的是内存 channel，还有大小；

第三是监控的文件，这并不是监控的文件而是一个对机，比如 sink 和 channel 对接的一个整合，相当于告诉channel 接受的是哪一个 sink 的数据，监控文件夹使用的类型是 Taildir；

第五是元数据保存位置，就是所要采集的文件夹、数据的文件位置，比如说第一个是元数据的保存位置，这个文件不需要创，只用给出位置以及相应的数据就行，再写上对应的名字，第二个上是组织的f1，如果有多个文件夹可以配置成 f2f3f4。

第三个是配置文件夹得路径，采集得是 flume1.8下所有csv文件，之后就是配置 sink，使用得是 sh.sink,直接将数据存储到 azkaban 上，设置类型是 hdfs，之后是hdfs保存的路径买这个路径要保持一样，到最后还要采集到后面得表中，直接放入当前得文件加就行，直接映射即可。

接下来采集得文件类型是 dataStream 流得形式，使用 text 得形式书写。

之后得两行设置0，是因为输出，flume 采集得时候会使用大量的写文件，需要把写文件合并成一个，就要设置为0，就会形成一个文件。之后配置 sink 和 channel 的对接文件，要告诉 sink 是哪一个 channle 对接，最后配置前缀和后缀，log 文件，前缀使用 true 的形式保存的，这就是单机版的配置。

到这整体来说搭建成功，它本身就是一个搭建工具，所以不太麻烦，最后测试一下采集，直接使用就行，如果有问题就解决就行。

电商项目之 Flume 安装配置参数讲解｜学习笔记

电商项目之 Flume 安装配置参数讲解

安装配置参数讲解

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

电商项目之 Flume 安装配置参数讲解｜学习笔记

电商项目之 Flume 安装配置参数讲解

安装配置参数讲解

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书