天天看點

《Hadoop MapReduce實戰手冊》一1.1 簡介

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第1章,第1.1節,作者: 【美】srinath perera , thilina gunarathne 譯者: 楊卓荦 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

很多年來,想要存儲和分析資料的使用者都需要先将資料存儲在資料庫中,然後再通過sql查詢來處理。網際網路已經改變了這個時代的大多數假設。網際網路上的資料是非結構化的大型資料,以至于資料庫既不能以某種模式捕捉它們,也無法擴充存儲和處理它們。

google是最早面對這類問題的組織之一,他們想要下載下傳鏡像網際網路資料并索引它們以支援搜尋查詢。他們建立了一個用于大規模資料處理的架構,借鑒了函數式程式設計範式的“map”函數和

“reduce”函數。它們被稱為mapreduce範式。

hadoop最廣為人知,同時也是最最廣泛使用的mapreduce範式實作。本章将介紹hadoop,描述如何安裝hadoop,并示範如何使用hadoop運作你的第一個mapreduce作業。

hadoop的安裝由4種類型的節點構成:namenode、datanode、jobtracker和tasktracker。hdfs節點(namenode和datanode)提供了一套分布式檔案系統,在這套系統上,jobtracker管理作業,每個tasktracker各自運作該作業的一部分任務。使用者送出mapreduce作業給jobtracker,jobtracker運作這些初始作業的map和reduce部分,收集中間結果,并最終輸出結果。

hadoop提供了以下三種可供選擇的安裝方式。

本地模式:這是一種解壓縮即運作的模式,能讓你馬上開始,hadoop的各個部分都運作在同一jvm中。

僞分布式模式:這種模式将使用不用的java虛拟機運作hadoop的不同部分,但這些java虛拟機運作在一台機器上。

分布式模式:這才是真正的跨多台機器的安裝模式。

我們将在前三節中讨論本地模式,在後三節中讨論僞分布式和分布式模式。