《Spark與Hadoop大資料分析》一一2.4　安裝 Hadoop 和 Spark 叢集

本節書摘來自華章計算機《spark與hadoop大資料分析》一書中的第2章，第2.4節,作者：文卡特·安卡姆（venkat ankam）更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在安裝 hadoop和spark之前，讓我們來了解一下 hadoop和spark的版本。在 cloudera、hortonworks和mapr這所有三種流行的hadoop發行版中，spark都是作為服務提供的。在本書編寫的時候，最新的hadoop和spark版本分别是2.7.2和2.0。但是，hadoop發行版裡可能是一個較低版本的spark，這是因為hadoop和 spark 的發行周期并不同步。

對于後續章節的實踐練習，我們會使用來自 cloudera、hortonworks 和 mapr 的免費虛拟機（virtual machine，vm），或使用開源版本的 apache spark。這些 vm 讓我們很容易開始使用 spark 和 hadoop。同樣的練習也可以在較大的叢集上運作。

在筆記本電腦上使用虛拟機的先決條件如下：

8 gb 或以上記憶體

至少 2 個虛拟 cpu

windows 或 linux 作業系統必須安裝了最新的 vmware player 或 oracle virtualbox

mac需要最新的 oracle virtualbox 或 vmware fusion

在 bios 中啟用虛拟化

建議使用 chrome 25+、ie 9+、safari 6+ 或 firefox 18+（hdp sandbox 不會在 ie 10 上運作）

putty

winscp

下載下傳并運作 cloudera hadoop 發行版（cloudera distribution for hadoop，cdh）的說明如下：

（2）将其解壓縮到一個目錄下（使用 7-zip 或 winzip）。

（3）在使用 vmware player 的情況下，單擊open a virtual machine，并指向你已經解壓縮了虛拟機的目錄。選擇 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 檔案，然後單擊 open。

（4）單擊edit virtual machine settings，然後把記憶體增加到 7 gb（如果你的筆記本電腦有 8 gb 記憶體）或 8 gb（如果您的筆記本電腦有超過 8 gb 記憶體）。将處理器數量增加到 4 個。單擊 ok。

（5）單擊play virtual machine。

（6）選擇i copied it，然後單擊 ok。

（7）這樣，你的虛拟機就會啟動并運作了。

（8）cloudera manager 安裝在虛拟機上，但預設情況下處于關閉狀态。如果要使用 cloudera manager，請輕按兩下并運作 launch cloudera manager express以設定 cloudera manager。它在啟動/停止/重新啟動叢集上服務的過程中是有幫助的。

（9）虛拟機的登入憑據是使用者名（cloudera）和密碼（cloudera）。

下載下傳和運作 hortonworks 資料平台（hortonworks data platform，hdp）sandbox 的說明如下：

（2）按照同一個下載下傳頁面上的安裝指南中的說明進行操作。

（4）使用 putty 作為root使用者，hadoop作為初始密碼來通路 sandbox。你需要在首次登入時更改密碼。此外，可以運作ambari-admin-password-reset指令重置ambari的管理者密碼。

（5）要開始使用 ambari，請打開浏覽器并輸入 ipaddressofsandbox:8080，并使用上一步建立的管理憑據。啟動 ambari 所需的服務。

（6）要将主機名映射到 windows 中的 ip 位址，請轉到 c:windowssystem32driversetchosts，然後輸入 ip 位址和主機名，中間用空格分隔符隔開。你需要管理者權限才能執行此操作。

下載下傳和運作 mapr sandbox 的說明如下：

（3）使用 putty 登入到 sandbox。

（4）root 使用者的密碼是 mapr。

（5）要啟動 hue 或 mapr 控制系統（mapr control system，mcs），請導航到 mapr sandbox 提供的 url。

（6）要将主機名映射到 windows 中的 ip 位址，請轉到 c:windowssystem32driversetchosts，然後輸入 ip 位址和主機名，中間用空格分隔符隔開。

下面給出了下載下傳和運作 apache spark 預制二進制檔案的說明，以便在你預先安裝了 hadoop 叢集的情況下使用。以下說明還可用于安裝最新版本的 spark，并在之前的虛拟機上使用它：

（1）從以下位置下載下傳為 hadoop 預制的 spark：

（2）把 spark_home 和 path 變量添加到配置檔案腳本，如以下指令所示，這樣每次登入時這些環境變量就都設定好了：

（3）通過向 spark-env.sh 添加以下環境變量，讓 spark 了解 hadoop 配置目錄和 java home。請複制 conf 目錄中的模闆檔案：

（4）将 hive-site.xml 複制到 spark 的 conf 目錄：

（5）在複制模闆檔案後，将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 檔案中的日志級别（log level）更改為 error。

運作 spark 要求的程式設計語言版本：

java: 7+

python: 2.6+/3.1+

r: 3.1+

scala: spark 1.6 用 2.10 以下版本的 scala，spark 2.0 用 2.11 以上版本的 scala

請注意，前面的虛拟機是單節點叢集。如果你計劃設定多節點叢集，請按照各個發型版（例如 cdh、hdp 或 mapr）給出的指導原則。如果你計劃使用 standalone 叢集管理器，下一章會介紹它的設定。

《Spark與Hadoop大資料分析》一一2.4　安裝 Hadoop 和 Spark 叢集

繼續閱讀

程式設計高手：VC 6.0下利用消息實作内部程序通訊

Compile workrave under windows &ndash; My exprience 在Windows上編譯Workrave

Windows下使用GSL（GNU Scientific Library）

《eWEEK》：09年5大科技發展趨勢雲計算居首

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

windows不能在本地計算機上運作oracleDbConsoleorcl

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

《Spark與Hadoop大資料分析》一一2.4 安裝 Hadoop 和 Spark 叢集

繼續閱讀

《Spark與Hadoop大資料分析》一一2.4　安裝 Hadoop 和 Spark 叢集