集成 Hive 服务

集成 Hive 服务 | 学习笔记

2022-11-19 305

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习集成 Hive 服务

开发者学堂课程【Hue 大数据可视化终端课程：集成 Hive 服务】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/719/detail/12851

内容介绍：

一、修改 Hue.ini

二、规格介绍

一、修改 Hue.ini

通过配置使用 hue 去访问 hive，需要先启动 hive 中的两个服务。第一个是用来访问原数据存储的 metastore 服务；另一个是 hive 的服务端，叫做 hiveserver2 服务。因为 hive 最终是通过斯威夫特协议去访问 hiveserver2服务，从而达到访问 hive 的目的。所以两个服务需要启动成功。

启动完要去修改 hue 当中的相关配置文件。主要是指定相关的 hue 服务器的主机端口以及电子文件的路径。首先来修改下 hue 中关于 hive 相关的配置文件。首先搜索 beeswax 单词，打开 notepad＋＋做全局的搜索。之后直接定位到了文件的路径。下面这个模块就是跟 hive 相关的配置。

首先要去配置 hive 服务区的 host，前面的注释“#”删除，=后输入 node-1，之后进行启动。接下来是 hive 服务器的端口，默认端口是10000。这个端口是通过 beeline 客户端远程连接时的端口 node-1:10000端口。接着是 hive 的配置文件路径，保持跟另外一个路径一致。比如这里是安装在 export/servers/hive/conf 路径下，那么要确定 hive 安装后找到的配置文件夹路径。接下来是服务连接的超时时间 time out，前面的注释“#”删除。

接着是两个认证的用户和密码。

通过 beeline 客户方式远程连接 hive 时要去输入用户名及密码，这里可以进行相关指定。比如说是以用户身份 root访问，而服务器的密码是 porsche。

认证完之后，还有模块叫做 metastore。它开启后，可以允许使用 hive 创建的数据库表。所以 metastore 中 enable前面的注释“#”删除。。

这样完成了在 hue 当中关于 hive 相关的配置，点击保存，就会远程同步到服务器当中。

二、启动 Hive 服务、重启 hue

hive 的启动，首先输入 cd/export/serves/hive。如果配置的环境变量，可以在任何目录启动。使用 nohup 命令它启动到后台。必须先启动原数据服务，然后再启动服务端，否则会启动报错。首先使用 nohup bin/hive—service metastore&命令启动在后台运行。点击回车。此时再按一次回车建，就可以把进程推到后台执行。

接下来再启动 hiveserver2 服务。复制 nohup bin/hive—service hiveserver2&启动在后台。如果不加入 nohup 和&直接启动，就会进入前台。点击回车键，最后使用 jps 命令就可以验证多了2个 RunJar 的进程。

接下来去重启 hue 服务。hue 的重启比较简单，按 ctrlC 直接结束。结束完成后，把启动的命令重写，输入build/env/bin/supervisor。按回车键启动。启动完成之后，看到几个打印的信息，说明启动成功。

接下来到页面上查看 hue 跟 hive 整合是否成功。打开浏览器并刷新。处理后做重新加载。刷新后，发现现在位于文件浏览 hf 中。它的入口有两个地方，第一个点击文件系统，左边有个 SQL，hive 也类似于 SQL，虽然它是速成软件。

点击 SQL 会弹出相关的信息。

点击这个左边箭头，会列举出当下整合的各种数据。比如说点击 hive 后，这会列举出 atabase 数据库。刷新后库下还有相关的表，没有表就没有信息。

判断下面的表信息显示是否正确可以通过 hive 远程进行判断。比如在 node-3机器上，输入 export /servers/hive/bin/beeline，使用客户端跟之前一样登录,发现里面是否存在数据。启动完之后，使用 node-1:10000端口连接。发现这些信息正是在 hue 当中配置的，连接后，输入密码用户名，用户名是 root，密码是 orsche。

通过 beeline 客户端连接到 hive 服务器上。此时直接敲 show databases 按回车，发现展示出来的数据库正是 hive 当中看到的，说明没有任何问题，看到的都是同一个原数据。

还可以做相关查询。第一种方式，在数据库右边点击 itheima，选择 open in browser，可以浏览表当中的相关信息。

通常的入口是点击 query 右小箭头，可以选择 editor 去编辑 hive，相当于打开了 hive 的编辑器。比如说操作 id 黑马数据库，点击进入发现里面有很多的信息。想查看网站日志，点击 detail 就可以对它进行查询。而且这类查询提供了各种各样的提示。比如说查看 select✳from dw，它有非常给力的提示。

选择想要操作的数据 detail。查询之后可以再加”limit;”。选完后直接点击 zu 左边箭头执行，就可以去查询 hive。如果不执行 mr 程序，可以把结果立刻显示出来。自助查询结果跟使用客户端一样，而且看起来非常的友好。

查询的过程当中，可以点击保存把结果保存。

在进行查询的时候，如果是 MR 程序，还可以做相关的统计。比如输入 count（*） from dw_weblog_detail;，底层要执行 MR 程序。所以查询比较慢。

再次运行发现迟迟都没有结果，因为它要把程序转换成 MR，转化成 MR 后，通过 job 可以看到 mr 执行的结果，点击它发现多出 MR 程序，叫做 select count（*） from dw_weblog_detail。刷新结束之后，结果就会返回。即 hue 跟 hive 完成了整合，不需要使用原生的页面去访问，直接完成。

完成之后，再回到 hive 编辑当中可以看到它的最终结果，执行的结果结束之后可以查看。如果没有结果，可能是 SQL出现问题。比如宽表是分区表，之后可以对它进行相关查询。

事实上还有好多编辑操作，比如 open in browser，可以打开编辑等等。比如 show detail 可以查看里面的数据相当于能帮助查询。

上图明显是分区表， partitions 是分区，分区字段叫做 datestr，日期是20181101，非常的方便。

hue 跟 hive 的高度整合完成，可以编写各种各样的生活语句。相比较于在原生进行敲命令，没有任何提示，会非常痛苦。

hue 跟 hive 的整合可以完成针对 hive 的各种查询、操作，而且可以在页面中去浏览各种结果。

集成 Hive 服务 | 学习笔记