kettle开发篇-流查询

简介: kettle开发篇-流查询

前言:


昨天我们讲了数据库相关操作,数据库连接来实现两个库的跨库查询,对应复杂的跨库查询通过数据库连接整合到一块后,就像是在一个数据库里面操作,今天我们来学习流查询,流查询主要用于在查询前把数据加载到内存中,并且只能进行等值查询。


一、流查询


流查询在查询前把数据加载到内存中,并且只能进行等值查询。

流查询的操作包括指定数据源,即我们将数据进行流查询的数据源头,如下图所示流查询的数据源是我们的Excel输入-departments,然后我们还需要指定我们进行流查询匹配的字段,即我们进行等值查询的字段,depid和id。最后我们指定我们需要返回的字段,即depname 来接收我们流查询的值。  


二、应用实例


今天我们的任务是从EXCEL读取employess和departments的数据,根据depid来查询depname,把数据保存到Excel。 为了实现这个需求,我们需要用到两个EXCEL的表输入,分别为EXCEL表输入employess、EXCEL表输入departments,流查询将输入的employess、departments数据进行等值比较再输出至EXCEL。具体转换如下图所示。

对应EXCEL表输入分为两个, 操作和以前一致,只是分别读取departments和employess的数据。我们接下来重点讲下流查询操作,需要注意的是因为我们要输出depname因此我们在流查询步骤选择时,我们选择departments,然后指定depid和id关联,最后输出我们的匹配dep_name。其实有点数据库基础的朋友可以将流查询理解为数据库的内连接查询,这样是不是瞬间就理解。只是这个内连接,可以连接任何的数据流。

相关文章
|
8月前
kettle开发篇-空操作
kettle开发篇-空操作
148 0
|
8月前
|
数据库
kettle开发篇-合并记录
kettle开发篇-合并记录
292 0
|
8月前
|
调度
kettle开发篇-写日志
kettle开发篇-写日志
532 0
|
8月前
|
Oracle 前端开发 关系型数据库
kettle开发篇-更新
kettle开发篇-更新
223 1
|
2月前
|
消息中间件 数据采集 监控
高级应用:利用DataHub构建实时数据流处理系统
【10月更文挑战第23天】在大数据时代,实时数据处理的需求日益增长。无论是金融交易、物联网设备监控,还是社交媒体分析,实时数据流处理系统都扮演着至关重要的角色。作为阿里云提供的实时数据同步服务,DataHub为开发者提供了一种高效、可靠的方式来构建实时数据流处理系统。本文将从个人的角度出发,探讨如何利用DataHub构建实时数据流处理系统,包括配置实时数据采集、与流处理引擎集成、实施数据流的实时分析和处理,以及确保系统的高可用性和扩展性。
128 5
|
8月前
|
BI API 流计算
[实时流基础 flink] 窗口
[实时流基础 flink] 窗口
106 1
|
8月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之采集选择增量(latest)读取模式,是否可以使用动态加载表功能
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
8月前
|
数据库
kettle开发篇-分组
kettle开发篇-分组
175 0
|
数据采集 运维 Ubuntu
使用kettle进行数据采集处理与数据关联操作
使用kettle进行数据采集处理与数据关联操作
|
缓存 算法 数据库连接
Kettle查询与连接(七)
Kettle查询与连接(七)
425 0
Kettle查询与连接(七)