开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

请问Flink有大佬知道怎么把hudi的数据删除吗?是真正的删除 hdfs 上的数据,太占磁盘了,

请问Flink有大佬知道怎么把hudi的数据删除吗?是真正的删除 hdfs 上的数据,太占磁盘了,直接在 hdfs 上把分区 rm 掉可以吗?会不会有什么影响?

展开
收起
真的很搞笑 2023-08-01 12:02:32 353 0
1 条回答
写回答
取消 提交回答
  • 可以直接在 HDFS 上把分区 rm 掉,但是这可能会导致数据丢失。

    建议使用 hudi.cleaner.policy 配置参数来删除历史数据。hudi.cleaner.policy 可以配置为以下几种类型:

    delete: 删除历史数据。
    archive: 归档历史数据。
    compact: 压缩历史数据。
    默认情况下,hudi.cleaner.policy 的值为 archive。

    如果需要删除历史数据,可以将 hudi.cleaner.policy 的值设置为 delete。

    例如,以下代码会删除历史数据:

    -- 配置参数
    hudi.cleaner.policy=delete

    -- 启动 Flink
    flink run -c com.example.MyJob /path/to/myjob.jar
    注意,删除历史数据是一个非常耗时的操作。需要提前规划好删除历史数据的策略,以免影响正常的数据业务。

    参考资料

    2023-09-26 11:22:06
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Flink峰会 - 徐榜江 立即下载
    Flink CDC Meetup PPT - 龚中强 立即下载
    海量数据分布式存储——Apache HDFS之最新进展 立即下载