安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

作業要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161

一.簡述Hadoop平台的起源、發展曆史與應用現狀。

1.列舉發展過程中重要的事件、主要版本、主要廠商；

說到Hadoop的起源，不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google(自稱)為雲計算概念的提出者，在自身多年的搜尋引擎業務中建構了突破性的GFS(Google File System)，從此檔案系統進入分布式時代。

除此之外，Google在GFS上如何快速分析和處理資料方面開創了MapReduce并行計算架構，讓以往的高端伺服器計算變為廉價的x86叢集計算，也讓許多網際網路公司能夠從IOE(IBM小型機、Oracle資料庫以及EMC存儲)中解脫出來，例如：淘寶早就開始了去IOE化的道路。然而，Google之是以偉大就在于獨享技術不如共享技術，在2002-2004年間以三大論文的釋出向世界推送了其雲計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有将其核心技術開源，但是這三篇論文已經向開源社群的大牛們指明了方向，一位大牛：Doug Cutting使用Java語言對Google的雲計算核心技術(主要是GFS和MapReduce)做了開源的實作。

後來，Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果，開發并推出了Hadoop生态系統。Hadoop是一個搭建在廉價PC上的分布式叢集系統架構，它具有高可用性、高容錯性和高可擴充性等優點。由于它提供了一個開放式的平台，使用者可以在完全不了解底層實作細節的情形下，開發适合自身應用的分布式程式。

2004年12月。Google發表了MapReduce論文，MapReduce允許跨伺服器叢集，運作超大規模并行計算。Doug Cutting意識到可以用MapReduce來解決Lucene的擴充問題。

Google發表了GFS論文。

Doug Cutting根據GFS和MapReduce的思想建立了開源Hadoop架構。

2006年1月，Doug Cutting加入Yahoo，上司Hadoop的開發。

Doug Cutting任職于Cloudera公司。

2009年7月，Doug Cutting當選為Apache軟體基金會董事，2010年9月，當選為chairman。

各大企業開發自己的發行版，并為Apache Hadoop貢獻代碼。

2.國内外Hadoop應用的典型案例。

1.Yahoo

Yahoo是Hadoop的最大支援者，截至2012年，Yahoo的Hadoop機器總節點數目超過420000個，有超過10萬的核心CPU在運作Hadoop。最大的一個單Master節點叢集有4500個節點（每個節點雙路4核心CPUboxesw，4×1TB磁盤，16GBRAM）。總的叢集存儲容量大于350PB，每月送出的作業數目超過1000萬個，在Pig中超過60%的Hadoop作業是使用Pig編寫送出的。

Yahoo的Hadoop應用主要包括以下幾個方面：

支援廣告系統
使用者行為分析
支援Web搜尋
反垃圾郵件系統
會員反濫用
内容靈活
個性化推薦

同時Pig研究并測試支援超大規模節點叢集的Hadoop系統。

2.Facebook

Facebook使用Hadoop存儲内部日志與多元資料，并以此作為報告、分析和機器學習的資料源。目前Hadoop叢集的機器節點超過1400台，共計11?200個核心CPU，超過15PB原始存儲容量，每個商用機器節點配置了8核CPU，12TB資料存儲，主要使用StreamingAPI和JavaAPI程式設計接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的進階資料倉庫架構，Hive已經正式成為基于Hadoop的Apache一級項目。此外，還開發了HDFS上的FUSE實作

二.下次上課之前，必須成功完成Hadoop的安裝與配置。

上截圖。

關閉hadoop