大資料時代-你需要了解的大資料處理神器-Hadoop

hadoop

- - - 1.1 hadoop 介紹
    - 1.2 hadoop 元件介紹
    - - Hadoop的核心生态架構
      - 核心元件
    - 2.1 hadoop 搭建
    - - 2.1.1 hadoop 下載下傳
      - 2.1.2 準備環境
      - 2.1.3 安裝方式
      - 2.1.4 配置
      - 2.1.5 測試

1.1 hadoop 介紹

官網介紹：

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

百科介紹

Apache Hadoop軟體庫是一個架構，該架構允許使用簡單的程式設計模型跨計算機叢集對大型資料集進行分布式處理。它旨在從單個伺服器擴充到數千台機器，每台機器都提供本地計算和存儲。庫本身不用于依靠硬體來提供高可用性，而是設計用于檢測和處理應用程式層的故障，是以可以在計算機叢集的頂部提供高可用性服務，每台計算機都容易出現故障。

作用

Hadoop主要用來存儲以及處理大量并且複雜的資料

1.2 hadoop 元件介紹

Hadoop的核心生态架構

底層：存儲層，檔案系統HDFS，NoSQL Hbase
中間層：資源及資料管理層，YARN以及Sentry等
上層：MapReduce、Impala、Spark等計算引擎
頂層：基于MapReduce、Spark等計算引擎的進階封裝及工具，如Hive、Pig、Mahout

核心元件

mapreduce：分布式批計算引擎，就是把一部分資料，拆分到多個節點，進行計算。說通俗了，就是把一個java裡的數組拆分若幹份，扔給多個機器上的mr程序，讓它們處理，至于怎麼處理邏輯都是自己寫。
hdfs：一個分布式檔案系統，這個不多說了，不了解dfs的話查查就明白。
yarn：資源管理排程架構，如果你寫了一堆定時執行的批處理程式，想讓它在一堆伺服器中的任意一台運作，但是這些伺服器的資源（記憶體、cpu）是有限的，你希望這些程式能夠自動的選擇一台資源相對不錯的機器運作，且當伺服器資源不夠時，剩下尚未運作的程式需要進行等待，說白了就是能把這些伺服器資源管理起來，你每次啟動程式不用手動去每台機器上找，同時能監控伺服器的資源使用，讓它們别超标影響其他程式，還能跟着每個程式執行狀況，那麼yarn就是做件事情的。

2.1 hadoop 搭建

2.1.1 hadoop 下載下傳

下載下傳位址：https://hadoop.apache.org/releases.html

2.1.2 準備環境

jdk安裝（因為 hadoop是 java 開發）

2.1.3 安裝方式

Hadoop 部署模式有：本地模式、僞分布模式、完全分布式模式、HA完全分布式模式。

區分的依據是 NameNode、DataNode、ResourceManager、NodeManager等子產品運作在幾個JVM程序、幾個機器。

模式名稱	各個子產品占用的JVM程序數	各個子產品運作在幾個機器數上
本地模式	1個	1個
僞分布式模式	N個	1個
完全分布式模式	N個	N個
HA完全分布式	N個	N個

2.1.4 配置

2.1.5 測試

運作MapReduce程式，驗證

我們這裡用hadoop自帶的wordcount例子來在本地模式下測試跑mapreduce。

準備mapreduce輸入檔案wc.input
運作 hadoop 自帶的 mapreduce Demo
檢視輸出檔案

輸出目錄中有 _SUCCESS 檔案說明 JOB 運作成功

具體詳細的各元件詳解和詳細安裝教程後續會陸續更新

個人能力有限

歡迎大家留言，如有問題，會及時更正（接受一切正确的建議）

官網位址：http://hadoop.apache.org/

參考：

https://www.zhihu.com/question/333417513

https://www.jianshu.com/p/0d4a365ef350

大資料時代-你需要了解的大資料處理神器-Hadoop

hadoop

1.1 hadoop 介紹

1.2 hadoop 元件介紹

Hadoop的核心生态架構

核心元件

2.1 hadoop 搭建

2.1.1 hadoop 下載下傳

2.1.2 準備環境

2.1.3 安裝方式

2.1.4 配置

2.1.5 測試

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

Spring資料和Redis

redis叢集資料一緻性_RedisRaft為Redis叢集帶來強大的資料一緻性

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

celery使用入門

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

大資料時代-你需要了解的大資料處理神器-Hadoop

hadoop

1.1 hadoop 介紹

1.2 hadoop 元件介紹

Hadoop的核心生态架構

核心元件

2.1 hadoop 搭建

2.1.1 hadoop 下載下傳

2.1.2 準備環境

2.1.3 安裝 方式

2.1.4 配置

2.1.5 測試

繼續閱讀

2.1.3 安裝方式