安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

1.Hadoop的介紹

Hadoop最早起源于Nutch。Nutch的設計目标是建構一個大型的全網搜尋引擎，包括網頁抓取、索引、查詢等功能，但随着抓取網頁數量的增加，遇到了嚴重的可擴充性問題——如何解決數十億網頁的存儲和索引問題。
2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。
——分布式檔案系統（GFS），可用于處理海量網頁的存儲
——分布式計算架構MAPREDUCE，可用于處理海量網頁的索引計算問題。
Nutch的開發人員完成了相應的開源實作HDFS和MAPREDUCE，并從Nutch中剝離成為獨立項目HADOOP，到2008年1月，HADOOP成為Apache頂級項目(同年，cloudera公司成立)，迎來了它的快速發展期。
狹義上來說，hadoop就是單獨指代hadoop這個軟體，
廣義上來說，hadoop指代大資料的一個生态圈，包括很多其他的軟體

Hadoop：适合大資料的分布式存儲和計算平台
Hadoop不是指具體一個架構或者元件，它是Apache軟體基金會下用Java語言開發的一個開源分布式計算平台。實作在大量計算機組成的叢集中對海量資料進行分布式計算。适合大資料的分布式存儲和計算平台。
Hadoop1.x中包括兩個核心元件：MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS負責将海量資料進行分布式存儲，而MapReduce負責提供對資料的計算結果的彙總

2003-2004年，Google公布了部分GFS和MapReduce思想的細節，受此啟發的Doug Cutting等人用2年的業餘時間實作了DFS和MapReduce機制，使Nutch性能飙升。然後Yahoo招安Doug Gutting及其項目。
2005年，Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來，成為一套完整獨立的軟體，起名為Hadoop
Hadoop名字不是一個縮寫，而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop
總結起來，Hadoop起源于Google的三大論文
GFS：Google的分布式檔案系統Google File System
MapReduce：Google的MapReduce開源分布式并行計算架構
BigTable：一個大型的分布式資料庫
演變關系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

1.擴容能力（Scalable）：Hadoop是在可用的計算機叢集間配置設定資料并完成計算任務的，這些叢集可用友善的擴充到數以千計個節點中。
2.成本低（Economical）：Hadoop通過普通廉價的機器組成伺服器叢集來分發以及處理資料，以至于成本很低。
3.高效率（Efficient）：通過并發資料，Hadoop可以在節點之間動态并行的移動資料，使得速度非常快。
4.可靠性（Rellable）：能自動維護資料的多份複制，并且在任務失敗後能自動地重新部署（redeploy）計算任務。是以Hadoop的按位存儲和處理資料的能力值得人們信賴

實驗完成圖