天天看點

資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速

本期導讀 :【OSS 通路加速】第六講

主題:Hadoop/Spark 通路 OSS 加速

講師:流影,阿裡巴巴計算平台事業部 EMR 技術專家

内容架構:

  • JindoFS SDK 介紹
  • Hadoop 使用 JindoFS SDK
  • Spark 使用 JindoFS SDK
  • 示範

直播回放連結:(5/6講)

https://developer.aliyun.com/live/246811

一、JindoFS SDK 介紹

  • JindoFS SDK 是一個簡單易用面向 Hadoop/Spark 生态的 OSS 用戶端,為阿裡雲 OSS 提供高度優化的 HadoopFileSystem 實作。
  • 通過 JindoFS SDK,可以在 Hadoop 環境中直接使用 oss://bucket/ 的方式通路阿裡雲 OSS 上的内容。
  • 例如:
資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速

為什麼使用 JindoFS SDK

  • 優異的性能表現:和開源版本的 Hadoop-OSS-SDK 進行對比,各項操作性能均顯著好于 Hadoop-OSS-SDK
  • 良好的相容性:相容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop2.3 及以上的版本上驗證通過
  • 專業團隊維護:阿裡雲 EMRHadoop 團隊維護,JindoFS Hadoop SDK 在阿裡雲 EMR等産品中廣泛使用
  • 功能更新快:及時跟進 OSS 最新特性和優化,版本更新及時。

二、Hadoop 使用 JindoFS SDK 通路 OSS

安裝 jar 包

  • 下載下傳最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安裝到hadoop的classpath下。
資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速

配置 JindoFSOSS 實作類

  • 将 JindoFS OSS 實作類配置到Hadoop的core-site.xml中。
資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速

配置 OSSAccess Key

  • 将OSS的AccessKey、Access Key Secret、Endpoint等預先配置在Hadoop的core-site.xml中。
資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速

使用 JindoFSSDK 通路 OSS

用HadoopShell通路OSS,下面列舉了幾個常用的指令。

  • put操作:hadoop fs -put <path> oss://<bucket>/  
  • ls 操作:hadoop fs -ls oss://<bucket>/
  • mkdir操作:hadoopfs -mkdiross://<bucket>/<path>
  • rm操作:hadoop fs rm oss://<bucket>/<path>

三、Spark 使用 JindoFS SDK 通路 OSS

在 Spark CLASSPATH 中添加 JindoFS SDK

  • 下載下傳最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安裝到 Spark的classpath下。
  • cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

配置 JindoFS SDK

全局配置:參考 Hadoop 配置

任務級别配置:spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS --conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com

通路 OSS

  • 完成配置之後,啟動的 Spark 任務通路 OSS 預設就使用 JindoSDK 通路

四、示範

  1. 下載下傳JindoFSSDK
  2. 将jar包拷貝到hadoopclasspath
  3. 修改配置
  4. 示範hadoop 指令
  5. 将jar包拷貝到Spark${SPARK_HOME}/jars
  6. 示範Spark 通路 OSS

直接觀看第三課(5/6講)視訊回放,擷取執行個體講解~

相關資源

1.下載下傳JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.Hadoop 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md

3.Spark 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md

⭐Github連結:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

資料湖實操講解【OSS 通路加速】第六講:Hadoop/Spark 通路 OSS 加速