天天看點

分層更高效,對 Hive 數倉進行熱度/冷度統計 | 學習筆記

開發者學堂課程【資料湖 JindoFS + OSS 實操幹貨36講:分層更高效,對 Hive 數倉進行熱度/冷度統計】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/833/detail/13981

分層更高效,對 Hive 數倉進行熱度/冷度統計

内容介紹

一、熱/冷度統計介紹

二、熱/冷度統計用法

三、示範

(1)為什麼要分層統計0

l  Hadoop

l  所有資料一視同仁

l  資料量增加時,成本也在增加 

l  OSS

l  橫向擴充

l  多種資料存儲類型.不同計費方式

(2) OSS 資料存儲類型

l  标準

l  0.12元/GB/月

l  低頻通路

l  0.08元/GB/月

l  歸檔

l  0.033元/GB/月

l  冷歸檔

l  0.015元/GB/月

(3)資料熱/冷度統計

l  區分不同類型資料

l  降低成本

l  緩存加速

(1)适用範圍

l  引擎

l  Hive

l  Spark

l  Presto

l  自建 Hadoop 叢集

l  需要結合其他 JindoFS 的服務一起使用

l  版本

l  冷度統計

l  EMR-3.35/4.9之後的版本

l  熱度統計

l  EMR- 3.33/4.3之後的版本

l  暫不支援 DLF 資料湖中繼資料

(2)Hive 開啟熱度統計

l  登陸阿裡雲 E-MapReduce 控制台進入自己的叢集

l  叢集服務- > Hive->配置

l  搜尋參數 hive.exec post.hooks,在其後追加com.aliyun.emr.table.hive.HivePostHook

l  儲存->自動更新配置->重新開機HiveServer2

(3)Hive 開啟冷度統計

l  參照熱度統計配置 hive.exec.post.hooks

l  服務配置 -> hive-site ->自定義配置

l  key : hive.hook.update.access.time.enabled

l  value : true

l  儲存配置->重新開機All Components

(4)Spark 開啟熱度統計

l  SmartData 3.2.X版本後,Spark 預設開啟資料收集。

(5)Spark 開啟冷度統計

l  叢集服務 -> Spark-> 配置

l  搜尋參數 spark.sql.queryExecutionListeners, 確定參數值中包括

com.aliyun.emr.table.spark. SparksQLQueryListener,如果存在多個 listener, 使用英文分号隔開。

l  服務配置-> spark-defaults ->自定義配置

l  key: spark.sql.query.update acestisme enabled

l  value: true

l  儲存配置

l  重新開機 All Components

(6)Presto 開啟熱度統計

l  SmartData 3.2.X版本後,Presto 預設開啟資料收集。 

(7)Presto 開啟冷度統計

l  登陸阿裡雲 E-MapReduce控制台進入自己的叢集

l  叢集服務-> Presto ->配置

l  搜尋參數event-listener.name,確定參數值中包括. jindo- presto-post- event-listener

l  服務配置-> event-listener.properties ->自定義配置

l  key: listener.update .access.time.enabled

l  重新開機AlIL Components

(8)熱度統計用法

l  文法

l  jindo table -accessStat-d -n

l  days 和 topNums 都是正整數

l  當 days 為1時,表示查詢從本地時間當天00:00起的所有通路記錄

l  功能

l  查詢指定時間範圍内,通路最多的N個表或分區的記錄

l  示例:查詢過去7天内通路次數最多的20條表或分區記錄

l  jindo table-accessStat-d7-n20

(9)冷度統計用法

l  jindo table -leastUseStat -n [-i/-ignoreNever]

nums是顯示的記錄數量,為正整數

-i/-ignoreNever為可選參數,會過濾從未被通路過的表或分區

l  展示最久未被通路的表或分區

l  示例:查詢最久未被通路的20條表或分區的記錄

l   jindo table -leastUseStat -n20

1.示範

l  配置參數

l  操作資料

l  熱/冷度功能展示

2.相關資料

l  熱度統計使用文檔:

https://help.aliyun.com/document

detail/264174.html

l  冷度統計使用文檔:

detail/264175.html

繼續閱讀