《Spark與Hadoop大資料分析》——2.4　安裝 Hadoop 和 Spark 叢集

在安裝 Hadoop和Spark之前，讓我們來了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR這所有三種流行的Hadoop發行版中，Spark都是作為服務提供的。在本書編寫的時候，最新的Hadoop和Spark版本分别是2.7.2和2.0。但是，Hadoop發行版裡可能是一個較低版本的Spark，這是因為Hadoop和 Spark 的發行周期并不同步。

對于後續章節的實踐練習，我們會使用來自 Cloudera、Hortonworks 和 MapR 的免費虛拟機（virtual machine，VM），或使用開源版本的 Apache Spark。這些 VM 讓我們很容易開始使用 Spark 和 Hadoop。同樣的練習也可以在較大的叢集上運作。

在筆記本電腦上使用虛拟機的先決條件如下：

《Spark與Hadoop大資料分析》——2.4　安裝 Hadoop 和 Spark 叢集

下載下傳并運作 Cloudera Hadoop 發行版（Cloudera Distribution for Hadoop，CDH）的說明如下：

（2）将其解壓縮到一個目錄下（使用 7-Zip 或 WinZip）。

（3）在使用 VMWare Player 的情況下，單擊Open a Virtual Machine，并指向你已經解壓縮了虛拟機的目錄。選擇 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 檔案，然後單擊 Open。

（4）單擊Edit virtual machine settings，然後把記憶體增加到 7 GB（如果你的筆記本電腦有 8 GB 記憶體）或 8 GB（如果您的筆記本電腦有超過 8 GB 記憶體）。将處理器數量增加到 4 個。單擊 OK。

（5）單擊Play virtual machine。

（6）選擇I copied it，然後單擊 OK。

（7）這樣，你的虛拟機就會啟動并運作了。

（8）Cloudera Manager 安裝在虛拟機上，但預設情況下處于關閉狀态。如果要使用 Cloudera Manager，請輕按兩下并運作 Launch Cloudera Manager Express以設定 Cloudera Manager。它在啟動/停止/重新啟動叢集上服務的過程中是有幫助的。

（9）虛拟機的登入憑據是使用者名（cloudera）和密碼（cloudera）。

下載下傳和運作 Hortonworks 資料平台（Hortonworks Data Platform，HDP）Sandbox 的說明如下：

（2）按照同一個下載下傳頁面上的安裝指南中的說明進行操作。

（4）使用 putty 作為root使用者，hadoop作為初始密碼來通路 sandbox。你需要在首次登入時更改密碼。此外，可以運作ambari-admin-password-reset指令重置Ambari的管理者密碼。

（5）要開始使用 Ambari，請打開浏覽器并輸入 ipaddressofsandbox:8080，并使用上一步建立的管理憑據。啟動 Ambari 所需的服務。

（6）要将主機名映射到 Windows 中的 IP 位址，請轉到 C:WindowsSystem32driversetchosts，然後輸入 IP 位址和主機名，中間用空格分隔符隔開。你需要管理者權限才能執行此操作。

下載下傳和運作 MapR Sandbox 的說明如下：

（3）使用 Putty 登入到 sandbox。

（4）root 使用者的密碼是 mapr。

（5）要啟動 HUE 或 MapR 控制系統（MapR Control System，MCS），請導航到 MapR Sandbox 提供的 URL。

（6）要将主機名映射到 Windows 中的 IP 位址，請轉到 C:WindowsSystem32driversetchosts，然後輸入 IP 位址和主機名，中間用空格分隔符隔開。

下面給出了下載下傳和運作 Apache Spark 預制二進制檔案的說明，以便在你預先安裝了 Hadoop 叢集的情況下使用。以下說明還可用于安裝最新版本的 Spark，并在之前的虛拟機上使用它：

（1）從以下位置下載下傳為 Hadoop 預制的 Spark：

（2）把 SPARK_HOME 和 PATH 變量添加到配置檔案腳本，如以下指令所示，這樣每次登入時這些環境變量就都設定好了：

（3）通過向 spark-env.sh 添加以下環境變量，讓 Spark 了解 Hadoop 配置目錄和 Java home。請複制 conf 目錄中的模闆檔案：

（4）将 hive-site.xml 複制到 Spark 的 conf 目錄：

（5）在複制模闆檔案後，将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 檔案中的日志級别（log level）更改為 ERROR。

《Spark與Hadoop大資料分析》——2.4　安裝 Hadoop 和 Spark 叢集

繼續閱讀

程式設計高手：VC 6.0下利用消息實作内部程序通訊

Compile workrave under windows &ndash; My exprience 在Windows上編譯Workrave

Windows下使用GSL（GNU Scientific Library）

《eWEEK》：09年5大科技發展趨勢雲計算居首

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

windows不能在本地計算機上運作oracleDbConsoleorcl

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

《Spark與Hadoop大資料分析》——2.4 安裝 Hadoop 和 Spark 叢集

繼續閱讀

《Spark與Hadoop大資料分析》——2.4　安裝 Hadoop 和 Spark 叢集