天天看點

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

在安裝 Hadoop和Spark之前,讓我們來了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR這所有三種流行的Hadoop發行版中,Spark都是作為服務提供的。在本書編寫的時候,最新的Hadoop和Spark版本分别是2.7.2和2.0。但是,Hadoop發行版裡可能是一個較低版本的Spark,這是因為Hadoop和 Spark 的發行周期并不同步。

對于後續章節的實踐練習,我們會使用來自 Cloudera、Hortonworks 和 MapR 的免費虛拟機(virtual machine,VM),或使用開源版本的 Apache Spark。這些 VM 讓我們很容易開始使用 Spark 和 Hadoop。同樣的練習也可以在較大的叢集上運作。

在筆記本電腦上使用虛拟機的先決條件如下:

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

下載下傳并運作 Cloudera Hadoop 發行版(Cloudera Distribution for Hadoop,CDH)的說明如下:

(2)将其解壓縮到一個目錄下(使用 7-Zip 或 WinZip)。

(3)在使用 VMWare Player 的情況下,單擊Open a Virtual Machine,并指向你已經解壓縮了虛拟機的目錄。選擇 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 檔案,然後單擊 Open。

(4)單擊Edit virtual machine settings,然後把記憶體增加到 7 GB(如果你的筆記本電腦有 8 GB 記憶體)或 8 GB(如果您的筆記本電腦有超過 8 GB 記憶體)。将處理器數量增加到 4 個。單擊 OK。

(5)單擊Play virtual machine。

(6)選擇I copied it,然後單擊 OK。

(7)這樣,你的虛拟機就會啟動并運作了。

(8)Cloudera Manager 安裝在虛拟機上,但預設情況下處于關閉狀态。如果要使用 Cloudera Manager,請輕按兩下并運作 Launch Cloudera Manager Express以設定 Cloudera Manager。它在啟動/停止/重新啟動叢集上服務的過程中是有幫助的。

(9)虛拟機的登入憑據是使用者名(cloudera)和密碼(cloudera)。

下載下傳和運作 Hortonworks 資料平台(Hortonworks Data Platform,HDP)Sandbox 的說明如下:

(2)按照同一個下載下傳頁面上的安裝指南中的說明進行操作。

(4)使用 putty 作為root使用者,hadoop作為初始密碼來通路 sandbox。你需要在首次登入時更改密碼。此外,可以運作ambari-admin-password-reset指令重置Ambari的管理者密碼。

(5)要開始使用 Ambari,請打開浏覽器并輸入 ipaddressofsandbox:8080,并使用上一步建立的管理憑據。啟動 Ambari 所需的服務。

(6)要将主機名映射到 Windows 中的 IP 位址,請轉到 C:WindowsSystem32driversetchosts,然後輸入 IP 位址和主機名,中間用空格分隔符隔開。你需要管理者權限才能執行此操作。

下載下傳和運作 MapR Sandbox 的說明如下:

(3)使用 Putty 登入到 sandbox。

(4)root 使用者的密碼是 mapr。

(5)要啟動 HUE 或 MapR 控制系統(MapR Control System,MCS),請導航到 MapR Sandbox 提供的 URL。

(6)要将主機名映射到 Windows 中的 IP 位址,請轉到 C:WindowsSystem32driversetchosts,然後輸入 IP 位址和主機名,中間用空格分隔符隔開。

下面給出了下載下傳和運作 Apache Spark 預制二進制檔案的說明,以便在你預先安裝了 Hadoop 叢集的情況下使用。以下說明還可用于安裝最新版本的 Spark,并在之前的虛拟機上使用它:

(1)從以下位置下載下傳為 Hadoop 預制的 Spark:

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

(2)把 SPARK_HOME 和 PATH 變量添加到配置檔案腳本,如以下指令所示,這樣每次登入時這些環境變量就都設定好了:

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

(3)通過向 spark-env.sh 添加以下環境變量,讓 Spark 了解 Hadoop 配置目錄和 Java home。請複制 conf 目錄中的模闆檔案:

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

(4)将 hive-site.xml 複制到 Spark 的 conf 目錄:

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

(5)在複制模闆檔案後,将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 檔案中的日志級别(log level)更改為 ERROR。

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

繼續閱讀