《Hadoop MapReduce實戰手冊》一1.1 簡介

2021-11-08 09:05:34

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第1章，第1.1節，作者：【美】srinath perera , thilina gunarathne 譯者：楊卓荦責編：楊海玲，更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

很多年來，想要存儲和分析資料的使用者都需要先将資料存儲在資料庫中，然後再通過sql查詢來處理。網際網路已經改變了這個時代的大多數假設。網際網路上的資料是非結構化的大型資料，以至于資料庫既不能以某種模式捕捉它們，也無法擴充存儲和處理它們。

google是最早面對這類問題的組織之一，他們想要下載下傳鏡像網際網路資料并索引它們以支援搜尋查詢。他們建立了一個用于大規模資料處理的架構，借鑒了函數式程式設計範式的“map”函數和

“reduce”函數。它們被稱為mapreduce範式。

hadoop最廣為人知，同時也是最最廣泛使用的mapreduce範式實作。本章将介紹hadoop，描述如何安裝hadoop，并示範如何使用hadoop運作你的第一個mapreduce作業。

hadoop的安裝由4種類型的節點構成：namenode、datanode、jobtracker和tasktracker。hdfs節點（namenode和datanode）提供了一套分布式檔案系統，在這套系統上，jobtracker管理作業，每個tasktracker各自運作該作業的一部分任務。使用者送出mapreduce作業給jobtracker，jobtracker運作這些初始作業的map和reduce部分，收集中間結果，并最終輸出結果。

hadoop提供了以下三種可供選擇的安裝方式。

本地模式：這是一種解壓縮即運作的模式，能讓你馬上開始，hadoop的各個部分都運作在同一jvm中。

僞分布式模式：這種模式将使用不用的java虛拟機運作hadoop的不同部分，但這些java虛拟機運作在一台機器上。

分布式模式：這才是真正的跨多台機器的安裝模式。

我們将在前三節中讨論本地模式，在後三節中讨論僞分布式和分布式模式。

《Hadoop MapReduce實戰手冊》一1.1 簡介

繼續閱讀

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

登入plsql 報錯 the account is locked --使用者被鎖

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

SequoiaDB巨杉資料庫C++驅動概述

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method