CDH 叢集 使用 JindoFS SDK 通路 OSS
CDH(Cloudera's Distribution, including Apache Hadoop)是衆多Hadoop發行版本中的一種,本文以CDH 5.16.2為例介紹如何配置CDH支援使用JindoFS SDK通路OSS。
下載下傳最新的jar包 jindofs-sdk-x.x.x.jar (下載下傳頁面),将sdk包安裝到hadoop的classpath下。
通過叢集管理工具Cloudera Manager增加JindoFS OSS 實作類配置,并根據Cloudera Manager提示重新開機叢集和部署用戶端配置。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsAjMfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsQTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5SY4YWZmNzNjZ2MiRmYhljZzYzNmVTZ5E2N5AjMiVmYk9CXzEzLclDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL4M3Lc9CX6MHc0RHaiojIsJye.png)
若沒有Cloudera Manager管理的叢集,可以配置core-site.xml中。
通過叢集管理工具Cloudera Manager增加OSS的Access Key、Access Key Secret、Endpoint等配置,并根據Cloudera Manager提示重新開機叢集和部署用戶端配置。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsAjMfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsQTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5SY4YWZmNzNjZ2MiRmYhljZzYzNmVTZ5E2N5AjMiVmYk9CXzEzLclDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL4M3Lc9CX6MHc0RHaiojIsJye.png)
JindoFS還支援更多的OSS AccessKey的配置方式,詳情參考JindoFS SDK OSS AccessKey 配置。
用Hadoop Shell通路OSS,下面列舉了幾個常用的指令。
put 操作
ls 操作
mkdir 操作
rm 操作
JindoFS SDK包含一些進階調優參數,配置方式以及配置項參考文檔 JindoFS SDK 配置項清單 【注:3.0 以下版本此 參考配置項清單】
6.spark、hive、impala加入此包
注意:以上每台cdh機器都需要操作
7.進入hdfs配置搜core-site.xml 的群集範圍進階配置代碼段(安全閥)
8.進入hive配置搜core-site.xml 的群集範圍進階配置代碼段(安全閥)
9.進入yarn搜core-site.xml 的 YARN 服務進階配置代碼段(安全閥)
以上配置完之後重新開機整個叢集。
注意:
1.重新開機的時候,先确認一下hdfs的namenode活動和yarn的ResourceManager活動的是哪一台。
2.重新開機的時候要每個元件每個元件的重新開機,防止全叢集重新開機影響到任務挂起。
3.生産環境重新開機前要與開發确認,是否有任務在執行。
以下是通過JindoFS SDK