E-MapReduce集群-JAVA客户端远程连接HDFS

简介: 阿里云E-MapReduce集群-JAVA客户端远程连接HDFS

部署在阿里云的EMR集群,通过公网进行连接,使用HDFS的JAVA-SDK,进行目录树的维护以及文件存储、下载。

1. 集群环境

a. EMR集群版本

阿里云EMR on ECS集群

集群版本 EMR-5.9.0

集群类型 DataLake

HadoopCommon 3.2.1

HDFS 3.2.1

2. 本地环境

a. Java环境

本地环境配置java==1.8.0

~/.bash_profile配置环境变量如下

配置好环境变量后查看java的版本

java -version

b. hadoop客户端

hadoop客户端下载地址:https://archive.apache.org/dist/hadoop/common/

解压后配置环境变量:

配置完成之后查看相关的版本信息:

c. Maven配置

java项目的maven依赖配置,需要注意hadoop相关的需要保持版本和emr集群版本的一致。另外还有junit负责测试和log4j的日志管理。

<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>3.2.1</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>compile</scope></dependency></dependencies>

d. 公网安全组入端口放行

在EMR集群的安全组设置中,开放本地ip地址到8020端口的权限

e. 样例代码

packagecom.aliyun;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.FileSystem;
importorg.apache.hadoop.fs.Path;
importorg.junit.After;
importorg.junit.Before;
importorg.junit.Test;
importjava.io.IOException;
importjava.net.URI;
importjava.net.URISyntaxException;
publicclassHDFSClientTest00 {
privateFileSystemfileSystem;
@Beforepublicvoidinit() throwsURISyntaxException, IOException {
URIuri=newURI("hdfs://${master_node_ip}:${hdfs_port}");
Configurationconfiguration=newConfiguration();
fileSystem=FileSystem.get(uri, configuration);
    }
// 创建一个根目录下的文件夹@TestpublicvoidtestMkdir() throwsIOException {
fileSystem.mkdirs(newPath("/paper2"));
    }
@Afterpublicvoidend() throwsIOException {
fileSystem.close();
    }
}

3. 常见问题

a. Standby NameNode无法对外提供服务

【问题】

EMR高可用集群,默认3个master节点,1个Active NameNode和2个Standby NameNode,通过URI指定master集群如果指定到Standby NameNode所在的节点则会报如下错误,Standby NameNode默认不对外客户端提供交互。

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby. Visit https://s.apache.org/sbnn-error

【解决】

可以登录到集群任意一个master节点上执行如下命令确认当前的ANN是哪个节点,并更改FileSystem类中指定的URI。

b. NameNode无法ping通

【问题】

在通过java的sdk进行文件的上传和下载的时候,会报错ConnectTimeoutException,根据日志来看,本地java在尝试与某个DataNode的内网IP进行通讯,获取blockreader进行数据的读取,详细报错如下:

2022-10-3117:09:09,233 WARN [org.apache.hadoop.hdfs.client.impl.BlockReaderFactory] - I/O error constructing remote block reader.
org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.channels.SocketChannel[connection-pending remote=/${DataNode的内网ip地址}:9866]

文件下载到本地笔记本所用到的方法如下:

@TestpublicvoidtestGetFile() throwsIOException {
fileSystem.copyToLocalFile(newPath("/peixun/peixun.txt"), newPath("/Users/adamsun/output"));
}


【原因】

与HDFS的文件交互默认使用内网的IP地址,当本地JAVA客户端与NameNode进行交互鉴权并获得某个文件的所有Block块存储在DataNode的位置后,需要自定与DataNode进行交互并获取、上传数据,在此期间根据NameNode的返回的内网IP地址和端口肯定本地是ping不通的

【解决】

  1. 在FileSystem类默认的配置对象中指定,节点之间的交互使用域名的方式进行。
Configurationconfiguration=newConfiguration();
configuration.set("dfs.client.use.datanode.hostname", "true");
  1. 配置安全组,开放本地ip地址到9866端口的入权限
  2. 配置本地的 /etc/hosts ,加入所有的DataNode节点并路由到公网IP地址

相关文章
存储 jenkins 持续交付
825 2
|
11月前
|
人工智能 Java API
MCP客户端调用看这一篇就够了(Java版)
本文详细介绍了MCP(Model Context Protocol)客户端的开发方法,包括在没有MCP时的痛点、MCP的作用以及如何通过Spring-AI框架和原生SDK调用MCP服务。文章首先分析了MCP协议的必要性,接着分别讲解了Spring-AI框架和自研SDK的使用方式,涵盖配置LLM接口、工具注入、动态封装工具等步骤,并提供了代码示例。此外,还记录了开发过程中遇到的问题及解决办法,如版本冲突、服务连接超时等。最后,文章探讨了框架与原生SDK的选择,认为框架适合快速构建应用,而原生SDK更适合平台级开发,强调了两者结合使用的价值。
13428 33
MCP客户端调用看这一篇就够了(Java版)
|
11月前
|
存储 网络协议 Java
Java获取客户端IP问题:返回127.0.0.1
总结:要解决Java获取客户端IP返回127.0.0.1的问题,首先要找出原因,再采取合适的解决方案。请参考上述方案来改进代码,确保在各种网络环境下都能正确获取客户端IP地址。希望本文对您有所帮助。
677 25
|
11月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
463 34
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
1075 4
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
321 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
301 1
|
6月前
|
JSON 网络协议 安全
【Java】(10)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
299 1
|
6月前
|
JSON 网络协议 安全
【Java基础】(1)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
317 1

热门文章

最新文章