本期導讀 :【JindoTable 計算加速】第二十一講
主題:分層更高效,對 Hive 數倉進行熱度/冷度統計uid + JindoFS 對 OSS 上資料進行訓練加速
講師:羊川,阿裡巴巴計算平台事業部 開發工程師
内容架構:
- 熱/冷度統計介紹
- 熱/冷度統計用法
- 示範
直播回放連結:(21講)
https://developer.aliyun.com/live/247112一、熱/冷度統計介紹
為什麼要分層統計
- Hadoop
• 所有資料一視同仁
• 資料量增加時,成本也在增加
- OSS
• 橫向拓展
• 多種資料存儲類型
• 不同計費方式
OSS 資料存儲類型
- 标準
• 0.12元/GB/月
- 低頻通路
• 0.08元/GB/月
- 歸檔
• 0.033元/GB/月
- 冷歸檔
• 0.015元/GB/月
資料熱/冷度統計
- 區分不同類型資料
- 降低成本
- 緩存加速
二、熱/冷度統計用法
适用範圍
- 引擎
• Hive
• Spark
• Presto
- 版本
• 冷度統計( EMR-3.35/4.9之後的版本)
• 熱度統計( EMR-3.33/4.3之後的版本)
• 暫不支援 DLF 資料湖中繼資料
- 自建 Hadoop 叢集
• 需要結合其他JindoFS的服務一起使用
Hive 開啟熱度統計
- 登陸阿裡雲 E-MapReduce 控制台進入自己的叢集
- 叢集服務 –> Hive –> 配置
- 搜尋參數 hive.exec.post.hooks,在其後追加 com.aliyun.emr.table.hive.HivePostHook
- 儲存 -> 自動更新配置 -> 重新開機 HiveServer2
Hive 開啟冷度統計
- 參照熱度統計配置 hive.exec.post.hooks
- 服務配置 -> hive-site -> 自定義配置
• key:hive.hook.update.access.time.enabled
• value:true
- 儲存配置 -> 重新開機 All Components
Spark 開啟熱度統計
- SmartData 3.2.X版本後,Spark 預設開啟資料收集
Spark 開啟冷度統計
- 叢集服務 -> Spark -> 配置
• 搜尋參數 spark.sql.queryExecutionListeners,確定參數值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener,如果存在多個 listener,使用英文分号隔開。
- 服務配置 -> spark-defaults -> 自定義配置
• key: spark.sql.query.update.access.time.enabled
• value: true
• 儲存配置
• 重新開機 All Components
Presto 開啟熱度統計
- SmartData 3.2.X版本後,Presto 預設開啟資料收集
Presto 開啟冷度統計
- 叢集服務 -> Presto -> 配置
• 搜尋參數 event-listener.name,確定參數值中包括 jindo-presto-post-event-listener
- 服務配置 -> event-listener.properties -> 自定義配置
• key: listener.update.access.time.enabled
熱度統計用法
- 文法
• jindo table –accessStat -d -n
• days 和 topNums 都是正整數
• 當 days 為1時,表示查詢從本地時間當天00:00起的所有通路記錄
- 功能
• 查詢指定時間範圍内,通路最多的 N 個表或分區的記錄
- 示例:查詢過去7天内通路次數最多的20條表或分區記錄
• jindo table -accessStat –d 7 –n 20
冷度統計用法
• jindo table –leastUseStat -n [-i/-ignoreNever]
• nums 是顯示的記錄數量,為正整數
• -i/-ignoreNever 為可選參數,會過濾從未被通路過的表或分區
• 展示最久未被通路的表或分區
- 示例:查詢最久未被通路的20條表或分區的記錄
• jindo table –leastUseStat –n 20
三、示範
- 配置參數
- 操作資料
- 熱/冷度功能展示
相關文檔連結:
- 熱度統計使用文檔:
- 冷度統計使用文檔:
⭐點選回放連結,直接觀看第21講視訊回放,擷取講師執行個體講解:
⭐Github連結:
https://github.com/aliyun/alibabacloud-jindofs不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!