Hadoop数据源及计算源支持二段式Principal

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Hadoop计算源及Hadoop相关数据源采用Kerberos认证方式非常常见,在这种认证方式下,二段式Principal能满足客户对安全及易用性的需求。本文将为您说明二段式Principal配置方式。

背景说明


Principal(主体)是系统中的身份,如hadoop namenode等被赋予身份的人或事物。在Hadoop中,通常为集群中的每个服务和计算机创建不同的主体,例如hdfs/node1、hdfs/node2、...等等。这些主体将用于运行在node1、node2等上的所有HDFS守护程序。

Kerberos用户Principal有两部分组成:username@company.com。只有基于主机的服务主体有3个部分 (额外的部分是运行服务的主机),如principal=hive/cdh-master@COMPANY.COM。

在beeline connect字符串中,您应该始终对要连接的HiveServer2实例使用hive服务主体。另一种选择是使用 _ HOST而不是特定的主机名,该主机名将扩展为正确的主机。


三段式(即基于主机的服务主体)的Principal有几个问题:

  1. 当重启集群后,需要重新生成keytab文件,导致运维成本和复杂度增加
  2. 客户出于安全考虑,在生产环境中往往使用的是两段式principal如:XXX@DATAPHIN.COM

因此Dataphin从V2.9版本开始支持二段式Principal的配置。以下的配置支持Hadoop计算源以及Hadoop相关的数据源,但仅以Hadoop数据源为例。


配置说明

前置条件:

① 集群已经做好Kerberos相关的配置

② 已经准备好用户Principal的keytab文件


HDFS


在创建HDFS数据源连接时支持简单模式和Kerberos模式。简单方式在此不再赘述。若需使用二段式Principal进行认证,则

  1. 开启Kerberos认证
  2. 使用用户Principal的keytab文件
  3. 填入用户Principal



HDFS.png



Hive


Hive的连接方式目前Dataphin支持三种场景:简单模式,Kerberos(二段式及三段式),ZooKeeper HA模式。对于简单方式使用username和password方式登录,不再赘述。

配置Hive 数据源时,JDBC URL的Principal需要是Server级别的Principal,但是使用用户Principal及其keytab文件如:

jdbc:hive2://cdh-master:2181,cdh-worker01:2181,cdh-worker02:2181/default;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk;principal=hive/cdh-master@DATAPHIN.COM


Hive.png


Impala

保持与三段式的Kerberos Principal相同,JDBC URL如:

jdbc:impala://cdh-master:21050/default;AuthMech=1;KrbServiceName=impala;KrbRealm=DATAPHIN.COM;KrbHostFQDN=cdh-master


Keytab使用用户Principal的Principal。如下图所示:

Impala.png

HBase

  • 连接地址:hbase.zookeeper.quorum的地址,如:cdh-worker02:2181,cdh-master:2181,cdh-worker01:2181
  • 配置文件:可选上传hbase-site.xml
  • Kerberos:设置为开启
  • KDC Server:输入KDC的地址或切换为krb5文件
  • KeytabFile:上传用户的Keytab文件,可用kinit生成
  • Principal:设置用户Principal


image.png



相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
6天前
|
SQL 分布式计算 Hadoop
Hadoop集群管理:向繁琐的计算源创建Say ByeBye
为了解决Hadoop计算源创建复杂、维护困难的问题,Dataphin在V4.4 版本推出了Hadoop集群管理功能,支持用户引用集群信息进行计算源的创建,大大提高用户的创建和维护效率。
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
81 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
44 1
|
6月前
|
分布式计算 并行计算 搜索推荐
Hadoop MapReduce计算框架
【5月更文挑战第10天】HadoopMapReduce计算框架
51 3
|
5月前
|
分布式计算 Java Hadoop
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
55 0
|
存储 分布式计算 Hadoop
|
机器学习/深度学习 SQL 分布式计算
规划为 Hadoop 中各个服务分配 Kerberos 的 principal|学习笔记
快速学习规划为 Hadoop 中各个服务分配 Kerberos 的 principal
|
SQL 分布式计算 运维
在Dataphin中怎么配置Hadoop数据源的kerberos信息
目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,本文将说明如何在Dataphin中配置上述数据源的kerberos信息。
401 0
在Dataphin中怎么配置Hadoop数据源的kerberos信息
|
存储 分布式计算 监控
基于Hadoop分布式集群搭建政企大数据计算存储服务平台_数道云科技
大数据可以说影响的行业及领域非常广泛,例如:政治、经济、科学、教育、医学、社会研究…………由此也可以证明大数据对于如今的市场来说的重要性以及其发展的趋势。
1516 0
|
分布式计算 Hadoop Shell