备案控制台

开发者社区开发与运维文章正文

hudi 0.10.0适配hdp 3.1.5编译

2022-01-09 636

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： hudi由于其依赖于hdfs作为后端存储，所以为了适配hdp 3.1.5版本，需要进行适配性编译，本文介绍hudi 0.10.0适配hdp 3.1.5编译。

新增hdp仓库

在项目根目录下的pom文件中新增：

    <repository>
      <id>hdp</id>
      <url>https://repo.hortonworks.com/content/repositories/releases/</url>
    </repository>

其他pom文件修改

hive-jdbc依赖的hadoop-yarn-server-resourcemanager版本为SNAPSHOT，在仓库中都找不到，将其修改为使用项目指定的版本。

具体有如下子项目：

hudi-hadoop-mr中的hive-jdbc依赖
hudi-utilities-bundle中的hive-jdbc依赖
hudi-integ-test-bundle中的hive-jdbc依赖

排除掉

      <exclusions>
        <exclusion>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-yarn-server-resourcemanager</artifactId>
        </exclusion>
      </exclusions>

新增

    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-yarn-server-resourcemanager</artifactId>
      <version>${hadoop.version}</version>
    </dependency>

编译时部分jar包在仓库中找不到或下载慢，可以从原始rpm包中将其拷贝到编译的机器，并安装到本地，例如下述jar包，例如hive-jdbc-3.1.0.3.1.4.0-315-standalone.jar等。

编译命令

mvn clean install -DskipTests -Dhadoop.version=3.1.1.3.1.4.0-315 -Dhive.version=3.1.0.3.1.4.0-315 -Dscala.version=2.12.10 -Dscala.binary.version=2.12 -Dspark.version=3.0.1

结果

更多hudi知识请参考：

https://lrting.top/category/backend/bigdata/hudi/

文章标签：

Java

存储

从大数据到人工智能

目录

相关文章

上云活动指导

|

缓存 Linux 开发工具

CentOS 7- 配置阿里镜像源

阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助：2、查看不同版本的系统操作：下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.

上云活动指导

262806 0 5

游客b3un4miqfwcyo

|

存储移动开发前端开发

浅谈前端路由原理hash和history

众所周知， hash 和 history 在前端面试中是很常考的一道题目。在学习本文内容之前，周一对 hash 和 history 的认知可能就在 hash 的 url 里面多了个 # ，而 history 就不会。然后，我认知里还有一个是只有 history 才能做前后端分离，而 hash 跟前后端分离没有关系。然而，现实是……

游客b3un4miqfwcyo

2232 0 0

浅谈前端路由原理hash和history

技术小达人

|

存储数据采集安全

瓴羊Dataphin数据安全能力再升级，内置分类分级模板、上线隐私计算模块

瓴羊Dataphin数据安全能力再升级，内置分类分级模板、上线隐私计算模块

技术小达人

491 0 0

明哥的IT随笔

|

SQL 分布式计算算法

聊聊 Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法

聊聊 Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法

明哥的IT随笔

1029 2 2

聊聊 Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法

芯在这

|

SQL 关系型数据库 MySQL

实时计算 Flink版操作报错合集之程序初始化mysql没有完成就报错如何解决

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

芯在这

525 58 58

三分钟热度的鱼

|

Prometheus 监控 Cloud Native

实时计算 Flink版产品使用问题之怎么关闭HDFS的Web界面

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

341 1 1

Echo_Wish

|

算法数据处理异构计算

CatBoost高级教程：分布式训练与大规模数据处理

CatBoost高级教程：分布式训练与大规模数据处理【2月更文挑战第15天】

Echo_Wish

1132 14 14

大数据启示录

|

分布式计算资源调度监控

spark 监控梳理

spark 监控梳理

大数据启示录

668 0 0

小蚂蚁XMY

|

小程序开发者索引

微信小游戏如何接入多种类型的广告？

微信小游戏如何接入多种类型的广告？

小蚂蚁XMY

684 1 1

飞云觅宙

|

分布式计算关系型数据库大数据

阿里大数据——数据库总结：RDS、ADS、OTS、ODPS——Maxcompute（原ODPS）

阿里大数据——数据库总结：RDS、ADS、OTS、ODPS——Maxcompute（原ODPS）自制脑图

飞云觅宙

2756 0 1

阿里大数据——数据库总结：RDS、ADS、OTS、ODPS——Maxcompute（原ODPS）

热门文章

最新文章

阿里技术高P访谈之张俭恭：情义是阿里与外企的最大不同

SVG实例之中国地图

视频直播常见问题与解决办法汇总【系列一】

Java常见面试题：泛型中“T”与“？”的区别

PostgreSQL 最佳实践 - 逻辑增量复制(MySQL <-> PgSQL <-> PgSQL)

独家经验快速跟进：《零售数据中台通关指南》一起走进零售数据中台

程序员如何让自己 Be Cloud Native - 配置篇

Go调用C/C++的小demo

Linux网卡参数配置详解

你的数据库不是性能差，是你的SQL在“烧钱”：用这条指令让AI化身资深DBA

架构级拆解：AI数字人与数字员工的核心差异，玄晶引擎云原生实践启示

怎么解决无法拉取Docker镜像？不如我们自己建一个加速站（

基于n8n创建自愈式用例库及质量知识图谱

GPT-5.2来了，老金详细给你说说它为什么是王

2025数字员工技术选型白皮书：阿里云/亚马逊等5款产品云原生能力实测

不是监控不行，是你观测得不够：聊聊新一代可观测性（Observability）的真相

机器学习不是“银弹”，但能救你于告警地狱：AIOps 减噪的 3 个实战方法（Motadata 实战版）

Airflow 做 ETL，真不是“排个 DAG 就完事儿”：那些年我踩过的坑与悟出的道

《UGC工具的能力梯度解锁指南》

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓