Kettle查询与连接(七)

简介: Kettle查询与连接(七)

查询

流查询

  • 字典数据完全加载到内存后,在内存中查询,速度快,占内存。
  • 只支持“等于”的查询。 (不支持大于,小于等方式)
  • 如果匹配上多条,只保留最后一条。
  • 如果没有匹配上,新增的字段值为NULL。
  • 如果字典key和要查询的value都是integer,可以选中Key
    and value are exactly one integer field,节省内存。
  • Use sorted list:当比较的字符串比较长的,使用hash方式:

2019050616270083.png

20190506162857505.png

模糊匹配

  • 只支持单列的查询
  • 匹配相似度最大的字符串
  • 自定义匹配的取值范围
  • 支持模糊匹配算法

数据库查询

  • 只返回一行
  • 如果有多行结果: a只返回第-行,b失败
  • 对数据流里的每条记录都要做一次数据库查询,效率低。
  • 数据库查询(加载所有数据到缓存)=表输入+流查询

数据库连接

和单参数的表输入类型,但更灵活:

  • 可以自定义参数位置
  • 参数也可以输出

web查询

2019050621330867.png

记录集连接

20190506213012935.png

相关文章
|
数据库连接 数据库
kettle开发篇-流查询
kettle开发篇-流查询
503 0
|
数据采集 数据挖掘
kettle开发-数据清洗之字符串替换
kettle开发-数据清洗之字符串替换
705 2
|
数据挖掘
深入分析:ERP系统的优势与劣势
深入分析:ERP系统的优势与劣势
1070 3
|
SQL Oracle 关系型数据库
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
|
数据库
kettle开发篇-合并记录
kettle开发篇-合并记录
873 0
|
消息中间件 Java Spring
SpringBoot实现RabbitMQ的广播交换机(SpringAMQP 实现Fanout广播交换机)
SpringBoot实现RabbitMQ的广播交换机(SpringAMQP 实现Fanout广播交换机)
296 2
|
分布式计算 DataWorks 监控
dataworks组件
DataWorks 可能会添加新的功能或改进现有的组件,因此建议查阅最新的官方文档以获取最准确的信息。
338 2
|
11月前
|
消息中间件 分布式计算 Kafka
DStream 以及基本工作原理?
DStream 是 Apache Spark Streaming 的核心抽象,表示连续数据流。它从 Kafka、Flume 等接收数据,分为小批量(RDD),进行转换处理后输出到存储系统,并通过 RDD 容错机制保证可靠性。示例代码展示了从套接字接收数据并统计单词频率的过程。
|
机器学习/深度学习 自然语言处理 算法
机器学习核心:监督学习与无监督学习
本文深入解析了机器学习中的监督学习与无监督学习,涵盖理论基础、应用场景及典型算法实现,如线性回归、决策树、K均值聚类和主成分分析,并通过代码示例加深理解。适合初学者和进阶者阅读。
753 5
kettle开发篇-记录关联(笛卡尔积)
kettle开发篇-记录关联(笛卡尔积)
593 0