天天看點

《Spark與Hadoop大資料分析》一一2.4 安裝 Hadoop 和 Spark 叢集

本節書摘來自華章計算機《spark與hadoop大資料分析》一書中的第2章,第2.4節,作者:文卡特·安卡姆(venkat ankam) 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在安裝 hadoop和spark之前,讓我們來了解一下 hadoop和spark的版本。在 cloudera、hortonworks和mapr這所有三種流行的hadoop發行版中,spark都是作為服務提供的。在本書編寫的時候,最新的hadoop和spark版本分别是2.7.2和2.0。但是,hadoop發行版裡可能是一個較低版本的spark,這是因為hadoop和 spark 的發行周期并不同步。

對于後續章節的實踐練習,我們會使用來自 cloudera、hortonworks 和 mapr 的免費虛拟機(virtual machine,vm),或使用開源版本的 apache spark。這些 vm 讓我們很容易開始使用 spark 和 hadoop。同樣的練習也可以在較大的叢集上運作。

在筆記本電腦上使用虛拟機的先決條件如下:

8 gb 或以上記憶體

至少 2 個虛拟 cpu

windows 或 linux 作業系統必須安裝了最新的 vmware player 或 oracle virtualbox

mac需要最新的 oracle virtualbox 或 vmware fusion

在 bios 中啟用虛拟化

建議使用 chrome 25+、ie 9+、safari 6+ 或 firefox 18+(hdp sandbox 不會在 ie 10 上運作)

putty

winscp

下載下傳并運作 cloudera hadoop 發行版(cloudera distribution for hadoop,cdh)的說明如下:

(2)将其解壓縮到一個目錄下(使用 7-zip 或 winzip)。

(3)在使用 vmware player 的情況下,單擊open a virtual machine,并指向你已經解壓縮了虛拟機的目錄。選擇 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 檔案,然後單擊 open。

(4)單擊edit virtual machine settings,然後把記憶體增加到 7 gb(如果你的筆記本電腦有 8 gb 記憶體)或 8 gb(如果您的筆記本電腦有超過 8 gb 記憶體)。将處理器數量增加到 4 個。單擊 ok。

(5)單擊play virtual machine。

(6)選擇i copied it,然後單擊 ok。

(7)這樣,你的虛拟機就會啟動并運作了。

(8)cloudera manager 安裝在虛拟機上,但預設情況下處于關閉狀态。如果要使用 cloudera manager,請輕按兩下并運作 launch cloudera manager express以設定 cloudera manager。它在啟動/停止/重新啟動叢集上服務的過程中是有幫助的。

(9)虛拟機的登入憑據是使用者名(cloudera)和密碼(cloudera)。

下載下傳和運作 hortonworks 資料平台(hortonworks data platform,hdp)sandbox 的說明如下:

(2)按照同一個下載下傳頁面上的安裝指南中的說明進行操作。

(4)使用 putty 作為root使用者,hadoop作為初始密碼來通路 sandbox。你需要在首次登入時更改密碼。此外,可以運作ambari-admin-password-reset指令重置ambari的管理者密碼。

(5)要開始使用 ambari,請打開浏覽器并輸入 ipaddressofsandbox:8080,并使用上一步建立的管理憑據。啟動 ambari 所需的服務。

(6)要将主機名映射到 windows 中的 ip 位址,請轉到 c:windowssystem32driversetchosts,然後輸入 ip 位址和主機名,中間用空格分隔符隔開。你需要管理者權限才能執行此操作。

下載下傳和運作 mapr sandbox 的說明如下:

(3)使用 putty 登入到 sandbox。

(4)root 使用者的密碼是 mapr。

(5)要啟動 hue 或 mapr 控制系統(mapr control system,mcs),請導航到 mapr sandbox 提供的 url。

(6)要将主機名映射到 windows 中的 ip 位址,請轉到 c:windowssystem32driversetchosts,然後輸入 ip 位址和主機名,中間用空格分隔符隔開。

下面給出了下載下傳和運作 apache spark 預制二進制檔案的說明,以便在你預先安裝了 hadoop 叢集的情況下使用。以下說明還可用于安裝最新版本的 spark,并在之前的虛拟機上使用它:

(1)從以下位置下載下傳為 hadoop 預制的 spark:

(2)把 spark_home 和 path 變量添加到配置檔案腳本,如以下指令所示,這樣每次登入時這些環境變量就都設定好了:

(3)通過向 spark-env.sh 添加以下環境變量,讓 spark 了解 hadoop 配置目錄和 java home。請複制 conf 目錄中的模闆檔案:

(4)将 hive-site.xml 複制到 spark 的 conf 目錄:

(5)在複制模闆檔案後,将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 檔案中的日志級别(log level)更改為 error。

運作 spark 要求的程式設計語言版本:

java: 7+

python: 2.6+/3.1+

r: 3.1+

scala: spark 1.6 用 2.10 以下版本的 scala,spark 2.0 用 2.11 以上版本的 scala

請注意,前面的虛拟機是單節點叢集。如果你計劃設定多節點叢集,請按照各個發型版(例如 cdh、hdp 或 mapr)給出的指導原則。如果你計劃使用 standalone 叢集管理器,下一章會介紹它的設定。

繼續閱讀