天天看點

資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料

本期導讀 :【OSS 通路加速】第十講

主題:Impala 如何高效查詢 OSS 資料

講師:流影,阿裡巴巴計算平台事業部 EMR 技術專家

内容架構:

  • 背景介紹
  • Impala 使用 JindoSDK
  • 具體示範

直播回放連結:(9/10講)

https://developer.aliyun.com/live/246875

一、背景介紹

Apache Impala 介紹

能夠對存儲在 Hadoop 叢集的 PB 級資料進行快速 SQL 查詢分析的分布式 MPP 查詢架構

資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料

使用 JindoSDK 高效查詢 OSS 資料

  • JindoFS SDK 是一個簡單易用面向 Hadoop/Spark 生态的 OSS 用戶端,為阿裡雲 OSS  提供高度優化的 Hadoop FileSystem 實作。
  • 通過 JindoFS SDK,可以在 Hadoop 環境中直接使用 oss://bucket/ 的方式通路阿裡雲 OSS 上的内容。

二、Impala 使用 JindoSDK

1、安裝 jar 包

  • 下載下傳最新的jar包 jindofs-sdk-x.x.x.jar,将 sdk 包安裝到 Impala 的 lib 下
  • 下載下傳連結:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
  • cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/

2、配置 JindoFSOSS 實作類

  • 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 通路OSS
資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料

3、配置 OSS Access Key

  • 将 OSS 的Access Key、Access Key Secret、Endpoint 等預先配置在 Hadoop 的 core-site.xml 中
資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料

4、使用 JindoFS SDK 通路 OSS

資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料

三、具體示範

示範邏輯

  • 下載下傳 JindoFS SDK
  • 将 jar 包拷貝到 $IMPALA_HOME/lib/
  • 修改 JindoSDK 配置
  • 示範 Impala 加載和查詢 OSS 表

⭐點選回放連結,直接觀看第9/10講視訊回放,擷取講師執行個體講解:

相關資源

  • 下載下傳 JindoFS SDK:
  • Impala 使用 JindoSDK:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md

⭐Github連結:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

資料湖實操講解【OSS 通路加速】第十講:Impala 如何高效查詢 OSS 資料