数据湖实操讲解【 JindoTable 计算加速】第二十一讲：分层更高效，对 Hive 数仓进行热度/冷度统计-阿里云开发者社区

数据湖实操讲解【 JindoTable 计算加速】第二十一讲：分层更高效，对 Hive 数仓进行热度/冷度统计

2021-07-28 415

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【JindoTable 计算加速】第二十一讲

主题：分层更高效，对 Hive 数仓进行热度/冷度统计uid+JindoFS 对 OSS 上数据进行训练加速

讲师：羊川，阿里巴巴计算平台事业部开发工程师

内容框架：

热/冷度统计介绍
热/冷度统计用法
演示

直播回放链接：（21讲）

https://developer.aliyun.com/live/247112

一、热/冷度统计介绍

为什么要分层统计

Hadoop

• 所有数据一视同仁

• 数据量增加时，成本也在增加

OSS

• 横向拓展

• 多种数据存储类型

• 不同计费方式

OSS 数据存储类型

标准

• 0.12元/GB/月

低频访问

• 0.08元/GB/月

归档

• 0.033元/GB/月

冷归档

• 0.015元/GB/月

数据热/冷度统计

区分不同类型数据
降低成本
缓存加速

二、热/冷度统计用法

适用范围

引擎

• Hive

• Spark

• Presto

版本

• 冷度统计（ EMR-3.35/4.9之后的版本）

• 热度统计（ EMR-3.33/4.3之后的版本）

• 暂不支持 DLF 数据湖元数据

自建 Hadoop 集群

• 需要结合其他JindoFS的服务一起使用

Hive 开启热度统计

登陆阿里云 E-MapReduce 控制台进入自己的集群
集群服务 –> Hive –> 配置
搜索参数 hive.exec.post.hooks，在其后追加 com.aliyun.emr.table.hive.HivePostHook
保存 -> 自动更新配置 -> 重启 HiveServer2

Hive 开启冷度统计

参照热度统计配置 hive.exec.post.hooks
服务配置 -> hive-site -> 自定义配置

• key：hive.hook.update.access.time.enabled

• value：true

保存配置 -> 重启 All Components

Spark 开启热度统计

SmartData3.2.X版本后，Spark 默认开启数据收集

Spark 开启冷度统计

登陆阿里云 E-MapReduce 控制台进入自己的集群
集群服务 -> Spark -> 配置

• 搜索参数 spark.sql.queryExecutionListeners，确保参数值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener，如果存在多个 listener，使用英文分号隔开。

服务配置 -> spark-defaults-> 自定义配置

• key: spark.sql.query.update.access.time.enabled

• value: true

• 保存配置

• 重启 All Components

Presto 开启热度统计

SmartData3.2.X版本后，Presto 默认开启数据收集

Presto 开启冷度统计

登陆阿里云 E-MapReduce 控制台进入自己的集群
集群服务 -> Presto -> 配置

• 搜索参数 event-listener.name，确保参数值中包括 jindo-presto-post-event-listener

服务配置 -> event-listener.properties-> 自定义配置

• key: listener.update.access.time.enabled

• value: true

• 保存配置

• 重启 All Components

热度统计用法

语法

• jindo table –accessStat -d -n

• days 和 topNums 都是正整数

• 当 days 为1时，表示查询从本地时间当天00:00起的所有访问记录

功能

• 查询指定时间范围内，访问最多的 N 个表或分区的记录

示例：查询过去7天内访问次数最多的20条表或分区记录

• jindo table -accessStat –d 7 –n 20

冷度统计用法

语法

• jindo table –leastUseStat -n [-i/-ignoreNever]

• nums 是显示的记录数量，为正整数

• -i/-ignoreNever 为可选参数，会过滤从未被访问过的表或分区

功能

• 展示最久未被访问的表或分区

示例：查询最久未被访问的20条表或分区的记录

• jindo table –leastUseStat –n 20

三、演示

配置参数
操作数据
热/冷度功能展示

数据湖实操讲解【 JindoTable 计算加速】第二十一讲：分层更高效，对 Hive 数仓进行热度/冷度统计

本期导读：【JindoTable 计算加速】第二十一讲

一、热/冷度统计介绍

为什么要分层统计

OSS 数据存储类型

数据热/冷度统计

二、热/冷度统计用法

适用范围

Hive 开启热度统计

Hive 开启冷度统计

Spark 开启热度统计

Spark 开启冷度统计

Presto 开启热度统计

Presto 开启冷度统计

热度统计用法

冷度统计用法

三、演示

相关文档链接：

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

数据湖实操讲解【 JindoTable 计算加速】第二十一讲：分层更高效，对 Hive 数仓进行热度/冷度统计

本期导读 ：【JindoTable 计算加速】第二十一讲

一、热/冷度统计介绍

为什么要分层统计

OSS 数据存储类型

数据热/冷度统计

二、热/冷度统计用法

适用范围

Hive 开启热度统计

Hive 开启冷度统计

Spark 开启热度统计

Spark 开启冷度统计

Presto 开启热度统计

Presto 开启冷度统计

热度统计用法

冷度统计用法

三、演示

相关文档链接：

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

本期导读：【JindoTable 计算加速】第二十一讲