Hadoop

大資料簡介（6V）

Hadoop概述

一、發展曆程：

二、子產品：

三、版本：

四、下載下傳安裝

大資料簡介（6V）

Volume：資料量大，包括采集、存儲和計算的量都非常大。大資料的起始計量機關至少是T、P（1024個T）、E（100萬個T）或Z（10億個T）
Variety：種類和來源多樣化。包括結構化、半結構化和非結構化資料，具體表現為網絡日志、音頻、視訊、圖檔、地理位置資訊等等，多類型的資料對資料的處理能力提出了更高的要求
Value：資料價值密度相對較低，或者說是浪裡淘沙卻又彌足珍貴。随着網際網路以及物聯網的廣泛應用，資訊感覺無處不在，資訊海量，但價值密度較低，如何結合業務邏輯并通過強大的機器算法來挖掘資料價值是大資料時代最需要解決的問題
Velocity：資料增長速度快，處理速度也快，時效性要求比較高
Veracity：資料的準确性和可信賴度，即資料的品質
Valence：大資料之間的連通性
随着大資料的發展，又增加了Vitality（動态性）、Visualization（可視化）、Validity（合法性）等

Java大資料之路--Hadoop(1)Hadoop

Hadoop是Apache提供的一個開源的、可靠的、可擴充的系統架構，可以利用分布式架構來進行海量資料的存儲以及計算。需要注意的是Hadoop處理的是離線資料，即在資料已知以及不要求實時性的場景下使用。

創始人：Doug Cutting 和 Mike Caferalla

2002年，Doug Cutting和Mike Cafarella在設計搜尋引擎Nutch的時候，爬取了整個網際網路，一共獲得了10億個網頁資料。因為網際網路的資料大多數是非結構化的，是以無法存儲在傳統的關系型資料庫中
2003年，Google發表一篇關于叢集系統存儲的論文：《The Google File System》（簡稱為GFS）
2004年，Cutting在基于GFS的基礎上設計了NDFS（Nutch Distributed File System）
2004年，Google發表了另一篇關于叢集系統計算的論文：《MapReduce: Simplified Data Processing on Large Clusters》
2005年，Doug根據谷歌的論文設計了在Nutch中使用的MapReduce
在Nutch0.8之後，将NDFS子產品以及MapReduce子產品獨立出來，重命名為Hadoop，并将NDFS重命名為HDFS - Hadoop Distributed File System
2006年，Doug Cutting加入了Yahoo，雅虎為此專門成立了專門的團隊和資源，将Hadoop發展成能夠以Web網絡規模運作的系統
Doug Cutting在Yahoo的工作期間，先後設計了Hive，Pig，HBase等
後來Yahoo将Hadoop、Hive、Pig、HBase等貢獻給了Apache

Java大資料之路--Hadoop(1)Hadoop

下載下傳位址：http://hadoop.apache.org/releases.html 安裝
Hadoop的安裝分為單機方式、僞分布式方式和完全分布式方式。
單機模式是Hadoop的預設模式。當首次解壓Hadoop的源碼包時，Hadoop無法了解硬體安裝環境，便保守地選擇了最小配置。在這種預設模式下所有3個XML檔案均為空。當配置檔案為空時，Hadoop會完全運作在本地。因為不需要與其他節點互動，單機模式就不使用HDFS，也不加載任何Hadoop的守護程序。該模式主要用于開發調試MapReduce程式的應用邏輯。
僞分布模式 Hadoop守護程序運作在本地機器上，模拟一個小規模的的叢集。可以使用HDFS和MapReduce
全分布模式 Hadoop守護程序運作在一個叢集上。啟動所有的守護程序，具有hadoop完整的功能，可以使用HDFS、MapReduce和Yarn，并且這些守護程序運作在叢集中，可以真正的利用叢集提供高性能，在生産環境下使用

僞分布式安裝教程