Flow file 生成器2 | 学习笔记

简介: 快速学习 Flow file 生成器2

开发者学堂课程【NiFi 知识精讲与项目实战(第二阶段): Flow file 生成器2学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/706/detail/12534


Flow file 生成器2


flew file 生成器的工作流程,首先先添加一个处理器,叫 generate flow file,这是第一个点添加,添加完以后可以对进行一个设置,这里面大家一定要注意,因为 generate flow file 是流程的第一个处理器,一定要对的调度进行一个配置,

1.png

要把的这个处理的这个运转的间隔设置一个时间,否则零秒也就相当于会不间断的去运行,这对于的服务器来说是会有非常大的压力,这里面,改为五秒一次,五秒执行一次。  

另外还要注意,execution 属性。这个属性在之前单机版的时候,是没有的,只有在集群的模式下才会有这个属性。默认的是 all nodes,这里面生成的时候,只需要在一个节点上去生成就可以了,如果在三台节点上同时去生成,一是这个服务器压力比较大,而且也不好进行测试,所以把这里面改为 primary note,

2.png

只在主节点上去进行。这个配置完以后,接下来就要设置 generate flow file 生成文件的一个策略。进入 property 配置项以后,在这个 file size 这个属性值上,需要设置所生成的这个数据的大小,这里把它设置为10B,然后,就是要设置这个 batch size,也就是每一次生成的文件,有几个,这里面设置三个,也就是一次,生成的就是三乘以十倍,就是30B 的数据。然后,还有一个叫 unique flow file,也就是说生成的数据,是不是唯一的,这里面把它改为处,也就是说每一个生成的这个文件,都是唯一的,都是不会重复的,然后点击保存,

3.png

接下来再来创建第二个处理器 replace text,也就是第一个,添加,这个时候要将它们两个连接在一起。

4.png

关联关系默认就选中这个 size,连接到一起以后,  

接下来配置 replace text 处理器,点击配置,这时调度就不需要进行配置,因为执行速率间隔是由第一个节点来决定的,只有在接收到数据以后才会去运转。所以这个值是不需要进行设置的,另外这个节点,可以让它在集群,在整个集群当中去进行运行,这个时候它速率会比较快,不选择单节点是因为数据的来源在 generate flow file 这个数据来源,已经 diss,它生产数据多,这个压力就越大,生产数越少,压力就越少。而 execution 属性它并不会影响整体的负载压力,所以就让它在整个集训当中去进行运行。

5.png

可以运行 generate flow file,可以看到开始运转去生产数据,

接下来用 replace text 来进行接收,接收完之后们可以把保存到的一个文本文件中来进行查看,比如还是用 putfile来进行保存,可以把 generate flow file和replace text 两个进行一个关联,当成功的时候输出到的 putfile,失败的时候,让它还返回自身。可以先把进入 generate flow file 先停掉,这时可以看到队列中已经有了 generate flow file b所生成的数据了,现在数据一共是24个,

6.png

也就是一共生成了八次,因为每一个批次是三个,刚才设置的每一个批次是三个,24除以三肯定就是生成了八个批次的,大小是240Bbytes,因为设置的每一个文件是失败的。所以24就是240bytes,接下来要想去生成的文件,就必须要先用 replace text 去进行处理。

replace text 处理,将 replace text 当中的这个生成策略,修改成 always replace。

7.png

不管什么情况,都会进行替换,替换成了最终的结果是什么,在 replacement value 里面去进行修改,比如说这里面把它改为 hello word,

8.png

通过这样的变更以后,接收到的数据,它的内容全部都会变成 hello word,保存,这个时候就可以来运行的 replay text 了就会开始消费刚才队列当中的数据,消费完以后,它会将的数据发送到这个 putfile 的这个队列当中去,这个时候可以看到文件还是24个没有变,

9.png

但是它的大小已经产生了变化,就是因为它里面的文本内容,已经被变更,大小产生变化了。  

最后,可以将的 putfile,写入到的一个文本当中,还写入到 export tmp target 里面,保存执行,

10.png

如图有错误,是关联关系没有指定,进行一个字连接,选中 future 和的 success,这个时候没有报错信息,可以启动的 putfile,开始消费的数据,并且消费完成,消费完成之后,没有任何报错信息,在这里面,在这个面板当中,可以清晰的看到这个完整的处理流程。这个完整的处理流程,五分钟之内处理的数据,generate 处理的数据,replace 也全部都有,Putfile 也全部都有。如下图

11.png

停止处理器,进入服务器,输入 cd/export/tmp,然后进入的 target 目录下,可以看到生成了很多数很多文件,任意选择一个文件来进行查看,

12.png

比如查看第一个,复制一下文件名输入,可以看到这个文本的内容就是叫 hello world,证明替换是已经生效的。

相关文章
|
网络协议 应用服务中间件 数据库
用Nginx禁止指定IP、国外IP访问我的网站
想要实现这个功能有很多方法,下面我就来介绍基于 Nginx 的 ngx_http_geoip2 模块来禁止国外 IP 访问网站。
1620 0
用Nginx禁止指定IP、国外IP访问我的网站
|
人工智能 文字识别 监控
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
17785 0
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
|
2月前
|
人工智能 自然语言处理 数据中心
65_GPU选择:A100 vs RTX系列
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1,从专业领域应用到消费级产品,LLM正在以前所未有的速度改变着我们的工作和生活方式。然而,这些强大模型的训练和部署背后,都离不开高性能计算硬件的支持,尤其是GPU(图形处理单元)的选择,往往直接决定了项目的可行性、效率和成本。
|
2月前
|
人工智能 Unix API
50_选择模型:开源vs闭源
在大型语言模型(LLM)技术快速发展的今天,企业和开发者面临着一个关键决策:是选择开源LLM模型还是闭源LLM服务?这个选择直接影响到项目的成本结构、开发灵活性、数据安全性以及长期战略规划。随着2025年LLM技术的进一步成熟,开源与闭源模型之间的竞争格局也发生了显著变化。
|
3月前
|
JavaScript Java 关系型数据库
基于springboot的校内跑腿管理系统
针对校园跑腿服务效率低、信任难等问题,本研究设计基于Spring Boot与Vue的校内跑腿管理系统,融合MySQL数据库与智能化调度技术,实现任务发布、智能匹配、实时追踪与评价反馈一体化,提升服务效率与质量,助力智慧校园建设。
|
4月前
|
人工智能 自然语言处理 安全
如何让 AI 工具更懂你,更听话?
你是否也曾被AI“气到吐血”?明明说的是A,AI却给了B?别沮丧,2025年的AI也需要“正确沟通”。本文教你五大提示技巧:动态提示、多模态输入、Few-shot示例、任务分解与安全边界,让AI从“人工智障”变身“贴心助手”。学会“说AI的语言”,释放创造力,提升效率,开启智能生活新时代!
1361 0
|
7月前
|
存储 前端开发 Android开发
鸿蒙开发:自定义一个联系人模版
实现的方式并不是一成不变,你也可以通过Canvas自定义绘制来实现,基本上大同小异,都是必须要确认当前触摸字母的位置,然后进行样式的更改,左右列表的联动操作。
117 8
鸿蒙开发:自定义一个联系人模版
|
7月前
|
分布式计算 Hadoop Java
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
289 21
|
10月前
|
网络安全 SEO
如何简单建设一个网站?
在建站时,使用建站平台搭建简单,明确目标与定位、选择域名与主机域名、部署和运行将模板上传,完善网站信息,优化和维护网站后,考虑SEO和后续维护。
351 1
|
9月前
|
SQL Unix API
夏令时的坑:你的数据库真的能正确处理时间跳变吗?
时区是地球上使用相同标准时间的区域。由于地球的自转,为了保证各地的时间与当地的日出日落相协调,全球划分为多个时区。
456 0