安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

作業來源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161

Hadoop的起源

2003-2004年，Google公布了部分GFS和MapReduce思想的細節，受此啟發的Doug Cutting等人用2年的業餘時間實作了DFS和MapReduce機制，使Nutch性能飙升。然後Yahoo招安Doug Gutting及其項目。

2005年，Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。

2006年2月被分離出來，成為一套完整獨立的軟體，起名為Hadoop

Hadoop名字不是一個縮寫，而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。

Hadoop的成長過程

Lucene–>Nutch—>Hadoop

總結起來，Hadoop起源于Google的三大論文

GFS：Google的分布式檔案系統Google File System

MapReduce：Google的MapReduce開源分布式并行計算架構

BigTable：一個大型的分布式資料庫

演變關系

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

Hadoop發展史

Hadoop大事記

2004年— 最初的版本(現在稱為HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。

2005年12月— Nutch移植到新的架構，Hadoop在20個節點上穩定運作。

2006年1月— Doug Cutting加入雅虎。

2006年2月— Apache Hadoop項目正式啟動以支援MapReduce和HDFS的獨立發展。

2006年2月— 雅虎的網格計算團隊采用Hadoop。

2006年4月— 标準排序(10 GB每個節點)在188個節點上運作47.9個小時。

2006年5月— 雅虎建立了一個300個節點的Hadoop研究叢集。

2006年5月— 标準排序在500個節點上運作42個小時(硬體配置比4月的更好)。

2006年11月— 研究叢集增加到600個節點。

2006年12月— 标準排序在20個節點上運作1.8個小時，100個節點3.3小時，500個節點5.2小時，900個節點7.8個小時。

2007年1月— 研究叢集到達900個節點。

2007年4月— 研究叢集達到兩個1000個節點的叢集。

2008年4月— 赢得世界最快1TB資料排序在900個節點上用時209秒。

2008年7月— 雅虎測試節點增加到4000個

2008年9月— Hive成為Hadoop的子項目

2008年11月— Google宣布其MapReduce用68秒對1TB的程式進行排序

2008年10月— 研究叢集每天裝載10TB的資料。

2008年— 淘寶開始投入研究基于Hadoop的系統–雲梯。雲梯總容量約9.3PB，共有1100台機器，每天處理18000道作業，掃描500TB資料。

2009年3月— 17個叢集總共24 000台機器。

2009年3月— Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）

2009年4月— 赢得每分鐘排序，雅虎59秒内排序500 GB(在1400個節點上)和173分鐘内排序100 TB資料(在3400個節點上)。

2009年5月— Yahoo的團隊使用Hadoop對1 TB的資料進行排序隻花了62秒時間。

2009年7月— Hadoop Core項目更名為Hadoop Common;

2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項目的獨立子項目。

2009年7月— Avro 和 Chukwa 成為Hadoop新的子項目。

2009年9月— 亞聯BI團隊開始跟蹤研究Hadoop

2009年12月—亞聯提出橘雲戰略，開始研究Hadoop

2010年5月— Avro脫離Hadoop項目，成為Apache頂級項目。

2010年5月— HBase脫離Hadoop項目，成為Apache頂級項目。

2010年5月— IBM提供了基于Hadoop 的大資料分析軟體——InfoSphere BigInsights，包括基礎版和企業版。

2010年9月— Hive( Facebook) 脫離Hadoop，成為Apache頂級項目。

2010年9月— Pig脫離Hadoop，成為Apache頂級項目。

2011年1月— ZooKeeper 脫離Hadoop，成為Apache頂級項目。

2011年3月— Apache Hadoop獲得Media Guardian Innovation Awards 。

2011年3月— Platform Computing 宣布在它的Symphony軟體中支援Hadoop MapReduce API。

2011年5月— Mapr Technologies公司推出分布式檔案系統和MapReduce引擎——MapR Distribution for Apache Hadoop。

2011年5月— HCatalog 1.0釋出。該項目由Hortonworks 在2010年3月份提出，HCatalog主要用于解決資料存儲、中繼資料的問題，主要解決HDFS的瓶頸，它提供了一個地方來存儲資料的狀态資訊，這使得資料清理和歸檔工具可以很容易的進行處理。

2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack伺服器産品線提供Hadoop優化的解決方案。

2011年5月— EMC為客戶推出一種新的基于開源Hadoop解決方案的資料中心裝置——GreenPlum HD，以助其滿足客戶日益增長的資料分析需求并加快利用開源資料分析軟體。Greenplum是EMC在2010年7月收購的一家開源資料倉庫公司。

2011年5月— 在收購了Engenio之後， NetApp推出與Hadoop應用結合的産品E5400存儲系統。

2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”，一個由10家軟體公司組成的團隊将為基于Calxeda即将推出的ARM系統上晶片設計的伺服器提供支援。并為Hadoop提供低功耗伺服器技術。

2011年6月— 資料內建供應商Informatica釋出了其旗艦産品，産品設計初衷是處理當今事務和社會媒體所産生的海量資料，同時支援Hadoop。

2011年7月— Yahoo!和矽谷風險投資公司 Benchmark Capital建立了Hortonworks 公司，旨在讓Hadoop更加魯棒(可靠)，并讓企業使用者更容易安裝、管理和使用Hadoop。

2011年8月— Cloudera公布了一項有益于合作夥伴生态系統的計劃——建立一個生态系統，以便硬體供應商、軟體供應商以及系統內建商可以一起探索如何使用Hadoop更好的洞察資料。

2011年8月— Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100機架伺服器以及Dell PowerConnect 6248以太網交換機

截圖：