开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

spark-submit --class org.apache.hudi.utilities.Hoo

spark-submit --class org.apache.hudi.utilities.HoodieCleaner, hudi的清理任务(独立运行),是针对所有的hudi表吧?

展开
收起
游客3oewgrzrf6o5c 2022-07-12 18:04:32 344 0
1 条回答
写回答
取消 提交回答
  • CSDN全栈领域优质创作者,万粉博主;InfoQ签约博主;华为云享专家;华为Iot专家;亚马逊人工智能自动驾驶(大众组)吉尼斯世界纪录获得者

    是的,使用spark-submit命令运行org.apache.hudi.utilities.HoodieCleaner类中的clean()方法,可以对所有的Hoodie表进行清理。在Hoodie中,每个表都有一个对应的Hoodie实例,HoodieCleaner类通过遍历所有的Hoodie实例,将其中的脏数据(即已经提交到HDFS上的数据与Hoodie中的数据不一致的数据)进行清理。因此,使用spark-submit命令运行HoodieCleaner类中的clean()方法,就是对所有的Hoodie表进行清理。

    2023-08-12 17:15:46
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关镜像