天天看点

分层更高效,对 Hive 数仓进行热度/冷度统计 | 学习笔记

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:分层更高效,对 Hive 数仓进行热度/冷度统计】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:

https://developer.aliyun.com/learning/course/833/detail/13981

分层更高效,对 Hive 数仓进行热度/冷度统计

内容介绍

一、热/冷度统计介绍

二、热/冷度统计用法

三、演示

(1)为什么要分层统计0

l  Hadoop

l  所有数据一视同仁

l  数据量增加时,成本也在增加 

l  OSS

l  横向扩展

l  多种数据存储类型.不同计费方式

(2) OSS 数据存储类型

l  标准

l  0.12元/GB/月

l  低频访问

l  0.08元/GB/月

l  归档

l  0.033元/GB/月

l  冷归档

l  0.015元/GB/月

(3)数据热/冷度统计

l  区分不同类型数据

l  降低成本

l  缓存加速

(1)适用范围

l  引擎

l  Hive

l  Spark

l  Presto

l  自建 Hadoop 集群

l  需要结合其他 JindoFS 的服务一起使用

l  版本

l  冷度统计

l  EMR-3.35/4.9之后的版本

l  热度统计

l  EMR- 3.33/4.3之后的版本

l  暂不支持 DLF 数据湖元数据

(2)Hive 开启热度统计

l  登陆阿里云 E-MapReduce 控制台进入自己的集群

l  集群服务- > Hive->配置

l  搜索参数 hive.exec post.hooks,在其后追加com.aliyun.emr.table.hive.HivePostHook

l  保存->自动更新配置->重启HiveServer2

(3)Hive 开启冷度统计

l  参照热度统计配置 hive.exec.post.hooks

l  服务配置 -> hive-site ->自定义配置

l  key : hive.hook.update.access.time.enabled

l  value : true

l  保存配置->重启All Components

(4)Spark 开启热度统计

l  SmartData 3.2.X版本后,Spark 默认开启数据收集。

(5)Spark 开启冷度统计

l  集群服务 -> Spark-> 配置

l  搜索参数 spark.sql.queryExecutionListeners, 确保参数值中包括

com.aliyun.emr.table.spark. SparksQLQueryListener,如果存在多个 listener, 使用英文分号隔开。

l  服务配置-> spark-defaults ->自定义配置

l  key: spark.sql.query.update acestisme enabled

l  value: true

l  保存配置

l  重启 All Components

(6)Presto 开启热度统计

l  SmartData 3.2.X版本后,Presto 默认开启数据收集。 

(7)Presto 开启冷度统计

l  登陆阿里云 E-MapReduce控制台进入自己的集群

l  集群服务-> Presto ->配置

l  搜索参数event-listener.name,确保参数值中包括. jindo- presto-post- event-listener

l  服务配置-> event-listener.properties ->自定义配置

l  key: listener.update .access.time.enabled

l  重启AlIL Components

(8)热度统计用法

l  语法

l  jindo table -accessStat-d -n

l  days 和 topNums 都是正整数

l  当 days 为1时,表示查询从本地时间当天00:00起的所有访问记录

l  功能

l  查询指定时间范围内,访问最多的N个表或分区的记录

l  示例:查询过去7天内访问次数最多的20条表或分区记录

l  jindo table-accessStat-d7-n20

(9)冷度统计用法

l  jindo table -leastUseStat -n [-i/-ignoreNever]

nums是显示的记录数量,为正整数

-i/-ignoreNever为可选参数,会过滤从未被访问过的表或分区

l  展示最久未被访问的表或分区

l  示例:查询最久未被访问的20条表或分区的记录

l   jindo table -leastUseStat -n20

1.演示

l  配置参数

l  操作数据

l  热/冷度功能展示

2.相关资料

l  热度统计使用文档:

https://help.aliyun.com/document

detail/264174.html

l  冷度统计使用文档:

detail/264175.html

继续阅读