开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC同步到hudi的时候,现在一直没生成,yarn上也没报错有遇到过没?

Flink CDC同步到hudi的时候,merge_on_read会生成ro 和rt结尾的表,但是现在一直没生成,yarn上也没报错有遇到过没?

展开
收起
真的很搞笑 2023-11-22 08:17:07 84 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    看起来可能是因为 Hudi 表类型设置为 MERGE_ON_READ 时,系统并没有自动创建 RO 和 RT 结尾的表。
    在 Hudi 中,当使用 MERGE_ON_READ 表类型时,Flink CDC 将生成名为 _RT 和 _RO 的表。请检查这些表是否存在。
    此外,如果 Flink CDC 在 Hudi 中启用 COMPACT_ON_READ 选项,系统将在 merge 表时自动生成 RO 和 RT 表。请确保 COMPACT_ON_READ 设置为 true:

    Properties props = new Properties();
    props.setProperty("table.type", "MERGE_ON_READ");
    props.setProperty("compact.on.read", "true");
    

    如果您检查了这些设置,并且仍然存在问题,请检查 Hudi 日志以及 Apache Flink 日志以确定具体原因。

    2023-11-29 14:09:29
    赞同 1 展开评论 打赏
  • 是的,在使用Flink CDC同步到Hudi时,如果开启了merge_on_read选项,Hudi会在读取数据时自动进行合并操作,并生成以"ro"和"rt"结尾的表。如果没有生成这些表,可能是因为以下几个原因:

    1. Flink任务没有正确启动或运行。你可以检查YARN上的任务状态,看是否有错误信息。

    2. Hudi的配置不正确。确保你已经正确配置了merge_on_read选项,并且Hudi的版本支持这个功能。

    3. 数据量过大。如果数据量非常大,可能需要一些时间才能完成合并操作。你可以检查Hudi的日志,看是否有相关的错误信息。

    4. 系统资源不足。如果系统资源不足,可能会影响Hudi的合并操作。你可以检查YARN的资源使用情况,看是否有资源不足的情况。

    2023-11-29 13:52:15
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    深度学习+大数据 TensorFlow on Yarn 立即下载
    Docker on Yarn 微服务实践 立即下载
    深度学习+大数据-TensorFlow on Yarn 立即下载