Follwfile 生成器1 | 学习笔记

简介: 快速学习 Follwfile 生成器1

开发者学堂课程【NiFi 知识精讲与项目实战(第二阶段):Follwfile 生成器1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/706/detail/12533


Follwfile 生成器1

内容介绍:

一、generate flow file

二、replace text 解析

三、实操


一、generate flow file

在 nifi 的集群当中,会把 nifi 的各个知识点来深入的学习,并且也会使用具体的案例来进行一个演示操作。

flow file 生成器,主要指的是 generate flow file 以及的 Please text 处理器,这两个处理器配合在一起,经常会用于生成数据,对平时的这个测试和调试会非常的有帮助。再来看一下 generate flow file 它的一个解析,这个处理器,它主要是使用随机的数据或者。自定义的这个内容数据来创建新的流文件,Generate flow file,它主要是用于负载测试,以及的仿真测试。具体属性配置如下图,

image.png

第一个 full size,这个配置项,主要是配置 generate flow file,每一次生成的这个文件流的大小。如果是做正常的测试,普通的测试可以设置的稍微小一点,如果要做一些压力测试,可以把这个数值设置大一些。

第二个 batch size,主要指是这个 gerate flow file,它每一个批次所创建的这个 flow file 文件的数量。比如在这里面设设置的是一兆,这里面设置的是五批次,设置的是五,这个意思也就是每一次的 flow file 都会创建五个一模一样的文件,并且每个文件大小都是一兆。

第三个是 date format,这个主要是指定的数据是文本还是二进制,一般来说会使用文本格式。

第四个是 unique flow file,也就是 generate flow file,所创建的这些数据,是不是唯一的默认值是 false,如果选择是改成 true,所生成的每一个流件都是唯一的,也就是都不一样,如果是使用默认值 false,处理器生成的这个值在第一次会生成一个随机值,在接下来的所有的流文件都会使用这同一个文件的内容,这个它、所有的数据是一样的,对于业务的测试用处不大,但是它对于去模仿吞吐量,以及的高并发是非常有帮助的。

第五个是 custom text,主要就是指的这个文本是不是使用自己的文本,如果在这里面填写的有值,这个generate flow file 它所申请的数据就会使用自己的在这填写的来进行创建,当然前提条件是要使用这个默认的 text,如果改成了 binary,这个就不会生效。

第六个是的文本格式默认值 Utf-8。

组件和应用场景,主要是用来进行测试,然后配置成这个设计人员,所需要的这种业务数据,也可以用来进行压力测试和负载测试,但是这个 generate flow file 不一定只是用来测试使用,也可以在一些业务场景中出现。比如想要实现一个流程,查询多个表,要想查询多个表这个表名,就可以做成 json 格式,配置到的 custom tax 这个配置项当中。通过 json 配置到这里面以后,就后续可以通过其的处理器把这个 json 切割,拿到每一个具体的表名,然后再去查询这不同的表明的数据,这样就可以实现一个流程查询多个表数据


二、replace text 解析

replace text 这个处理器,就像它的名字是一样的,它主要就是用来替换流文件内容,它支持使用正则表达式以及其他的,这种类似的功能来实现替换。

image.png

Replace text 的属性第一个 search value,这个意思是是填写一个正则表达式,匹配中的,就会进行变更。匹配得不到的就不会进行变更。

第二个是 replace value,主要就是这个匹配的这个目标值,也就是说,会把匹配到的数据替换成这里面的填的数据,比如说原来这个数据内容是 AAA,匹配到以后要把它替换成 BB,这就是填写 a 的这个最大值,这就是填写的。要替换成了 BB 这样的一个文字。

第三个是这个字符集,UTF8。

第四个是支持的最大的这个文本数量,文本字节数,如果说某一条消息超过了这个限制,就会报错。

第五个 replacement strategy 主要就是说替换的一个策略默认值是使用正则表达式,这种策略来进行替换,还有一个是替换,究竟是使用什么方式来替换,是一行一行的单独进行替换,还是对整个文件进行这种替换。

应用场景,主要就是进行文本内容的替换,业务逻辑当中会经常的应用到,就算去写这个 spark 代码,也会经常用到这种文本处理的这些业务逻辑。


三、实操

首先第一步可以创建一个 generate 的 flow file,然后,对这个生成文本的大小进行设置,设置完生成的文本大小以后,再来配置这个 file 具体的生成的内容,可以自定义它生成的数据,当然也可以让随机生成数据。设置完后,再来创建另外一个组处理器,也就是的 replace text 创建完以后把这两个进行连接,连接完以后就可以启动的generate file,并且查看 generate  file 所生成的数据到底都是哪些。generate file 查看完执行的结果,以后的结果会送达到的关联队列当中去,这时的 replace text 并没有接收到,需要先配置,然后再去启动的 replace text,接下来就是配置的 replace text,将 replace 匹配的策略,以及这个变更的内容设置解决,设置完之后然后就可以创建一个 kudu file 这样的文件、这样的处理器将替换以后的数据写入到的某一个具体的文件当中,然后处理完之后,就可以把这个处理器停止掉,然后,去查看写出来的这个文本的内容,这就需要注意处理器不用以后,一定要记得关闭,否则的话会一直占用的服务器资源。

相关文章
|
JavaScript
JS设置日期为0时0分0秒
项目中经常要给设置默认值,搜索从哪天开始,这时候,如果直接通过new Date()来获取时间,会有时分秒,如果快速设置为0时0分0秒?
613 0
|
Ubuntu Windows
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
3715 0
Ubuntu 20.04.2 LTS安装 最新版 微信(wine)
|
10月前
|
安全 Unix Linux
【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章
25000多字详细讲解,深度剖析权限管理核心。从基础权限到复杂的特殊权限,逐一拆解,无论你是零基础小白还是经验丰富的运维人员,都能在这里找到提升技能的关键知识,全面掌握 Linux 权限管理。还不快来看看?
【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章
|
12月前
|
Python
课程设计项目之基于Python实现围棋游戏代码
游戏进去默认为九路玩法,当然也可以选择十三路或是十九路玩法 使用pycharam打开项目,pip安装模块并引用,然后运行即可, 代码每行都有详细的注释,可以做课程设计或者毕业设计项目参考
291 33
|
Java 开发者 Spring
深入解析:Spring AOP的底层实现机制
在现代软件开发中,Spring框架的AOP(面向切面编程)功能因其能够有效分离横切关注点(如日志记录、事务管理等)而备受青睐。本文将深入探讨Spring AOP的底层原理,揭示其如何通过动态代理技术实现方法的增强。
538 8
|
存储 网络协议 算法
【C语言】进制转换无难事:二进制、十进制、八进制与十六进制的全解析与实例
进制转换是计算机编程中常见的操作。在C语言中,了解如何在不同进制之间转换数据对于处理和显示数据非常重要。本文将详细介绍如何在二进制、十进制、八进制和十六进制之间进行转换。
2003 5
|
机器学习/深度学习 人工智能 自然语言处理
评测:AI 大模型助力客户对话分析
该评测报告详细介绍了Al大模型在客户对话分析中的应用,涵盖了实践原理、实施方法、部署体验、示例代码及业务适应性。报告指出,该方案利用NLP和机器学习技术,深度解析对话内容,精准识别用户意图,显著提升服务质量与客户体验。实施方法清晰明了,文档详尽,部署体验顺畅,提供了丰富的引导和支持。示例代码实用性强,但在依赖库安装和资源限制方面需注意调整。整体上,该方案能够满足基本对话分析需求,但在特定行业场景中还需进一步定制化开发。
|
存储 运维 监控
Qt开发网络嗅探器01
Qt开发网络嗅探器01
|
机器学习/深度学习 数据采集 算法
Python技术应用案例——基于机器学习的信用评分模型
【2月更文挑战第11天】机器学习作为当下最热门的技术之一,已经在各个领域获得了广泛的应用。本文将介绍一个基于Python机器学习算法的信用评分模型,通过对数据集的处理和模型训练,实现对客户信用评级的自动化判定,提高了银行的工作效率和准确性。
1000 4
|
监控 负载均衡 网络协议
Nginx神奇的499竟然不在HTTP响应码标准内?快来了解一下!
Nginx神奇的499竟然不在HTTP响应码标准内?快来了解一下!
483 0