1.Hadoop的介紹
- Hadoop最早起源于Nutch。Nutch的設計目标是建構一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但随着抓取網頁數量的增加,遇到了嚴重的可擴充性問題——如何解決數十億網頁的存儲和索引問題。
- 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。
- ——分布式檔案系統(GFS),可用于處理海量網頁的存儲
- ——分布式計算架構MAPREDUCE,可用于處理海量網頁的索引計算問題。
- Nutch的開發人員完成了相應的開源實作HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目(同年,cloudera公司成立),迎來了它的快速發展期。
- 狹義上來說,hadoop就是單獨指代hadoop這個軟體,
- 廣義上來說,hadoop指代大資料的一個生态圈,包括很多其他的軟體
2.Hadoop是什麼?
- Hadoop: 适合大資料的分布式存儲和計算平台
- Hadoop不是指具體一個架構或者元件,它是Apache軟體基金會下用Java語言開發的一個開源分布式計算平台。實作在大量計算機組成的叢集中對海量資料進行分布式計算。适合大資料的分布式存儲和計算平台。
- Hadoop1.x中包括兩個核心元件:MapReduce和Hadoop Distributed File System(HDFS)
- 其中HDFS負責将海量資料進行分布式存儲,而MapReduce負責提供對資料的計算結果的彙總
3.Hadoop的起源
- 2003-2004年,Google公布了部分GFS和MapReduce思想的細節,受此啟發的Doug Cutting等人用2年的業餘時間實作了DFS和MapReduce機制,使Nutch性能飙升。然後Yahoo招安Doug Gutting及其項目。
- 2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。
- 2006年2月被分離出來,成為一套完整獨立的軟體,起名為Hadoop
- Hadoop名字不是一個縮寫,而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
- Hadoop的成長過程
- Lucene–>Nutch—>Hadoop
- 總結起來,Hadoop起源于Google的三大論文
- GFS:Google的分布式檔案系統Google File System
- MapReduce:Google的MapReduce開源分布式并行計算架構
- BigTable:一個大型的分布式資料庫
- 演變關系
- GFS—->HDFS
- Google MapReduce—->Hadoop MapReduce
- BigTable—->HBase
4.Hadoop的四大特性(優點)
- 1.擴容能力(Scalable):Hadoop是在可用的計算機叢集間配置設定資料并完成計算任務的,這些叢集可用友善的擴充到數以千計個節點中。
- 2.成本低(Economical):Hadoop通過普通廉價的機器組成伺服器叢集來分發以及處理資料,以至于成本很低。
- 3.高效率(Efficient):通過并發資料,Hadoop可以在節點之間動态并行的移動資料,使得速度非常快。
- 4.可靠性(Rellable):能自動維護資料的多份複制,并且在任務失敗後能自動地重新部署(redeploy)計算任務。是以Hadoop的按位存儲和處理資料的能力值得人們信賴
實驗完成圖
