开发者社区大数据与机器学习实时计算 Flink 正文

大佬们用stream API的方式抽取oracle的数据全是一直在重复读取全量数据这个怎么解决

如题

展开

收起

游客3oewgrzrf6o5c 2022-07-03 18:11:11 436 版权

1 条回答

写回答

取消提交回答

三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，可以尝试使用增量抽取的方式，即根据变化的情况只抽取新的或者发生改变的数据。具体做法可以使用以下方法：

1.使用增量字段，比如时间戳、版本号等，根据这些字段来判断数据是否发生了变化。

2.将增量字段的值记录下来，下一次抽取时只抽取增量字段值发生变化的数据。

3.可以考虑使用阿里云Stream API中的Checkpoint机制，即定期将增量字段值记录到Checkpoint中，下一次启动应用时从Checkpoint中读取增量字段值，从而实现增量抽取。

4.如果数据量较大，可以考虑使用分页抽取的方式，并在每次抽取后将已抽取的数据的最大值记录下来，下一次抽取时从该最大值开始抽取。

通过上述方式可以避免重复读取全量数据，同时只抽取需要的数据，提高抽取效率，减少资源消耗。

2023-08-22 16:50:14

赞同展开评论

问答分类：

Oracle 关系型数据库 API 实时计算 Flink版

问答标签：

API数据 Oracle数据库一键上云数据抽取Oracle数据库一键上云数据抽取Oracle数据库一键上云 API stream

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink 抽取oracle字符集是ZHS16GBK的无法抽取到数据

239

请问下Flink CDC 抽取Oracle的数据，报这个错误，有谁遇到过么？

257

flinkcdc抽取Oracle运行几天报NullPointerException，重启就又正常

对于Flink CDC，oracle cdc 获取有主键的表的时候能获取全量数据这咋回事？

197

在Flink CDC中oceanbase oracle initial模式全量转增量读取报错怎么办？

343

在Flink CDC中ORACLE19C CDB+PDB 抽取数据，是不是只能从主库去抽取？

238

FlinkCDC Oracle使用Table Api和FlinkSQL读取全量，每次都是最后一条

178

请教一个Flink问题有人尝试过，使用oracle-cdc实时抽取oracle的physical吗？

193

Flink CDC有没有用过3.X FLINKSQL-ORACLE 填了全量读取？

189

flinkcdc 2.4.2 抽取Oracle RAC, 多环境下的数据，后续怎么办？

208

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。