作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161
一.簡述Hadoop平台的起源、發展曆史與應用現狀。
1.列舉發展過程中重要的事件、主要版本、主要廠商;
說到Hadoop的起源,不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google(自稱)為雲計算概念的提出者,在自身多年的搜尋引擎業務中建構了突破性的GFS(Google File System),從此檔案系統進入分布式時代。
除此之外,Google在GFS上如何快速分析和處理資料方面開創了MapReduce并行計算架構,讓以往的高端伺服器計算變為廉價的x86叢集計算,也讓許多網際網路公司能夠從IOE(IBM小型機、Oracle資料庫以及EMC存儲)中解脫出來,例如:淘寶早就開始了去IOE化的道路。然而,Google之是以偉大就在于獨享技術不如共享技術,在2002-2004年間以三大論文的釋出向世界推送了其雲計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有将其核心技術開源,但是這三篇論文已經向開源社群的大牛們指明了方向,一位大牛:Doug Cutting使用Java語言對Google的雲計算核心技術(主要是GFS和MapReduce)做了開源的實作。
後來,Apache基金會整合Doug Cutting以及其他IT公司(如Facebook等)的貢獻成果,開發并推出了Hadoop生态系統。Hadoop是一個搭建在廉價PC上的分布式叢集系統架構,它具有高可用性、高容錯性和高可擴充性等優點。由于它提供了一個開放式的平台,使用者可以在完全不了解底層實作細節的情形下,開發适合自身應用的分布式程式。
2004年12月。Google發表了MapReduce論文,MapReduce允許跨伺服器叢集,運作超大規模并行計算。Doug Cutting意識到可以用MapReduce來解決Lucene的擴充問題。
Google發表了GFS論文。
Doug Cutting根據GFS和MapReduce的思想建立了開源Hadoop架構。
2006年1月,Doug Cutting加入Yahoo,上司Hadoop的開發。
Doug Cutting任職于Cloudera公司。
2009年7月,Doug Cutting當選為Apache軟體基金會董事,2010年9月,當選為chairman。
各大企業開發自己的發行版,并為Apache Hadoop貢獻代碼。

2.國内外Hadoop應用的典型案例。
1.Yahoo
Yahoo是Hadoop的最大支援者,截至2012年,Yahoo的Hadoop機器總節點數目超過420000個,有超過10萬的核心CPU在運作Hadoop。最大的一個單Master節點叢集有4500個節點(每個節點雙路4核心CPUboxesw,4×1TB磁盤,16GBRAM)。總的叢集存儲容量大于350PB,每月送出的作業數目超過1000萬個,在Pig中超過60%的Hadoop作業是使用Pig編寫送出的。
Yahoo的Hadoop應用主要包括以下幾個方面:
- 支援廣告系統
- 使用者行為分析
- 支援Web搜尋
- 反垃圾郵件系統
- 會員反濫用
- 内容靈活
- 個性化推薦
同時Pig研究并測試支援超大規模節點叢集的Hadoop系統。
2.Facebook
Facebook使用Hadoop存儲内部日志與多元資料,并以此作為報告、分析和機器學習的資料源。目前Hadoop叢集的機器節點超過1400台,共計11?200個核心CPU,超過15PB原始存儲容量,每個商用機器節點配置了8核CPU,12TB資料存儲,主要使用StreamingAPI和JavaAPI程式設計接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的進階資料倉庫架構,Hive已經正式成為基于Hadoop的Apache一級項目。此外,還開發了HDFS上的FUSE實作
二.下次上課之前,必須成功完成Hadoop的安裝與配置。
上截圖。
關閉hadoop