天天看點

資料湖實操講解【 JindoTable 計算加速】第二十一講:分層更高效,對 Hive 數倉進行熱度/冷度統計

本期導讀 :【JindoTable 計算加速】第二十一講

主題:分層更高效,對 Hive 數倉進行熱度/冷度統計uid + JindoFS 對 OSS 上資料進行訓練加速

講師:羊川,阿裡巴巴計算平台事業部 開發工程師

内容架構:

  • 熱/冷度統計介紹
  • 熱/冷度統計用法
  • 示範

直播回放連結:(21講)

https://developer.aliyun.com/live/247112

一、熱/冷度統計介紹

為什麼要分層統計    

  • Hadoop

   • 所有資料一視同仁

   • 資料量增加時,成本也在增加

  • OSS

   • 橫向拓展

• 多種資料存儲類型

   • 不同計費方式

OSS 資料存儲類型

  • 标準

   • 0.12元/GB/月

  • 低頻通路

   • 0.08元/GB/月

  • 歸檔

   • 0.033元/GB/月

  • 冷歸檔

   • 0.015元/GB/月

資料熱/冷度統計

  • 區分不同類型資料
  • 降低成本
  • 緩存加速

二、熱/冷度統計用法

适用範圍

  • 引擎

   • Hive

   • Spark

   • Presto

  • 版本

   • 冷度統計( EMR-3.35/4.9之後的版本)

   • 熱度統計( EMR-3.33/4.3之後的版本)

   • 暫不支援 DLF 資料湖中繼資料

  • 自建 Hadoop 叢集

   • 需要結合其他JindoFS的服務一起使用

Hive 開啟熱度統計

  • 登陸阿裡雲 E-MapReduce 控制台進入自己的叢集
  • 叢集服務 –> Hive –> 配置
  • 搜尋參數 hive.exec.post.hooks,在其後追加 com.aliyun.emr.table.hive.HivePostHook
  • 儲存 -> 自動更新配置 -> 重新開機 HiveServer2

Hive 開啟冷度統計

  • 參照熱度統計配置 hive.exec.post.hooks
  • 服務配置 -> hive-site -> 自定義配置

 • key:hive.hook.update.access.time.enabled

 • value:true

  • 儲存配置 -> 重新開機 All Components

Spark 開啟熱度統計

  • SmartData 3.2.X版本後,Spark 預設開啟資料收集

Spark 開啟冷度統計

  • 叢集服務 -> Spark -> 配置

 • 搜尋參數 spark.sql.queryExecutionListeners,確定參數值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener,如果存在多個 listener,使用英文分号隔開。

  • 服務配置 -> spark-defaults -> 自定義配置

 • key: spark.sql.query.update.access.time.enabled

 • value: true

 • 儲存配置

 • 重新開機 All Components

Presto 開啟熱度統計

  • SmartData 3.2.X版本後,Presto 預設開啟資料收集

Presto 開啟冷度統計

  • 叢集服務 -> Presto -> 配置

 • 搜尋參數 event-listener.name,確定參數值中包括 jindo-presto-post-event-listener

  • 服務配置 -> event-listener.properties -> 自定義配置

 • key: listener.update.access.time.enabled

熱度統計用法

  • 文法

 • jindo table –accessStat -d -n

• days 和 topNums 都是正整數

• 當 days 為1時,表示查詢從本地時間當天00:00起的所有通路記錄

  • 功能

 • 查詢指定時間範圍内,通路最多的 N 個表或分區的記錄

  • 示例:查詢過去7天内通路次數最多的20條表或分區記錄

 • jindo table -accessStat –d 7 –n 20

冷度統計用法

 • jindo table –leastUseStat -n [-i/-ignoreNever]

• nums 是顯示的記錄數量,為正整數

• -i/-ignoreNever 為可選參數,會過濾從未被通路過的表或分區

 • 展示最久未被通路的表或分區

  • 示例:查詢最久未被通路的20條表或分區的記錄

 • jindo table –leastUseStat –n 20

三、示範

  • 配置參數
  • 操作資料
  • 熱/冷度功能展示

相關文檔連結:

  • 熱度統計使用文檔:
https:// help.aliyun.com / document_detail /264174.html
  • 冷度統計使用文檔:
https://help.aliyun.com/document_detail/264175.html

⭐點選回放連結,直接觀看第21講視訊回放,擷取講師執行個體講解:

⭐Github連結:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

資料湖實操講解【 JindoTable 計算加速】第二十一講:分層更高效,對 Hive 數倉進行熱度/冷度統計

繼續閱讀