列舉發展過程中重要的事件、主要版本、主要廠商;
1.重要的事件:
HADOOP最早起源于Nutch。Nutch的設計目标是建構一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但随着抓取網頁數量的增加,遇到了嚴重的可擴充性問題——如何解決數十億網頁的存儲和索引問題。
03年開始谷歌陸續發表的三篇論文為該問題提供了可行的解決方案。
——分布式檔案系統(GFS),可用于處理海量網頁的存儲
——分布式計算架構MAPREDUCE,可用于處理海量網頁的索引計算問題。
——BigTable 資料庫:OLTP 聯機事務處理 Online Transaction Processing 增删改
OLAP 聯機分析處理 Online Analysis Processing 查詢
真正的作用:提供了一種可以在超大資料集中進行實時CRUD操作的功能
Nutch的開發人員完成了相應的開源實作HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。
04年 Doug Cutting 和 Mike Caferella實作了HDFS和MapReduce的初版
05年12月 Nutch移植到新架構,Hadoop在20個節點上穩定運作
06年1月 Doug Cutting加入雅虎
06年2月 Apache Hadoop項目正式啟動,支援MapReduce和HDFS獨立發展
06年2月 雅虎的網格計算團隊采用Hadoop
06年4月 在188個節點上(每個節點10GB)運作排序測試集需要47.9個小時
06年5月 雅虎建立了300個節點的Hadoop研究叢集
06年5月 在500個節點上運作排序測試集需要42個小時(硬體比4月份的更好)
06年11月 研究叢集增加到600個節點
06年12月 排序測試集在20個節點運作了1.8個小時,100個節點運作了3.3個小時,500個節點上運作了5.2個小時,900個節點上運作7.8個小時
07年1月 研究叢集增加到900個節點
07年4月 研究叢集增加到兩個叢集1000個節點
08年4月 在900個節點上運作1TB排序測試集僅需209秒,成為全球最快
08年10月 研究叢集每天加載10TB的資料
09年3月 17個叢集共24000個節點
09年4月 在每分鐘排序中勝出,59秒排序500GB(在1400個節點上)和173分鐘内排序100TB資料(在3400個節點上)
09年5月 Yahoo的團隊使用Hadoop對1 TB的資料進行排序隻花了62秒時間。
10年5月 IBM提供了基于Hadoop 的大資料分析軟體——InfoSphere BigInsights,包括基礎版和企業版。
11年5月 Mapr Technologies公司推出分布式檔案系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
12年3月 企業必須的重要功能HDFS NameNode HA被加入Hadoop主版本。
12年10月 第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生态圈。
2.主要版本
①Hadoop1.X即第一代Hadoop,由分布式存儲系統HDFS和分布式計算架構MapReduce組成,其中HDFS由一個NameNode和多個DateNode組成,MapReduce由一個JobTracker和多個TaskTracker組成。
②Hadoop 2.X指的是版本為Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,核心主要由HDFS、MapReduce和YARN三個系統組成,其中,YARN是一個資源管理系統,負責叢集資源管理和排程,MapReduce則是運作在YARN上離線處理架構,它與Hadoop 1.0中的MapReduce在程式設計模型(新舊API)和資料處理引擎(MapTask和ReduceTask)兩個方面是相同的。
3.主要廠商
①CLOUDERA(規模最大、知名度最高,最早将Hadoop作為商用的公司);
②Hortonworks(主打産品Hortonworks Data Platform);
③IBM(BigInsights);
④Oracle(Oracle Big Data);
⑤EMC(Apache Hadoop發行版——Pivptal HD);
4.國内外Hadoop應用的典型案例。
①國外
- Yahoo是Hadoop的最大支援者,截至2012年,Yahoo的Hadoop機器總節點數目超過42000個,有超過10萬的核心CPU在運作Hadoop。最大的一個單Master節點叢集有4500個節點(每個節點雙路4核心CPUboxesw,4×1TB磁盤,16GBRAM)。總的叢集存儲容量大于350PB,每月送出的作業數目超過1000萬個,在Pig中超過60%的Hadoop作業是使用Pig編寫送出的。
- Facebook使用Hadoop存儲内部日志與多元資料,并以此作為報告、分析和機器學習的資料源。目前Hadoop叢集的機器節點超過1400台,共計11?200個核心CPU,超過15PB原始存儲容量,每個商用機器節點配置了8核CPU,12TB資料存儲,主要使用StreamingAPI和JavaAPI程式設計接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的進階資料倉庫架構,Hive已經正式成為基于Hadoop的Apache一級項目。此外,還開發了HDFS上的FUSE實作。
- EBay:單叢集超過532節點叢集,單節點8核心CPU,容量超過5.3PB存儲。大量使用的MapReduce的Java接口、Pig、Hive來處理大規模的資料,還使用HBase進行搜尋優化和研究。
- IBM藍雲也利用Hadoop來建構雲基礎設施。IBM藍雲使用的技術包括:Xen和PowerVM虛拟化的Linux作業系統映像及Hadoop并行工作量排程,并釋出了自己的Hadoop發行版及大資料解決方案。
②國内
- 百度在2006年就開始關注Hadoop并開始調研和使用,在2012年其總的叢集規模達到近十個,單叢集超過2800台機器節點,Hadoop機器總數有上萬台機器,總的存儲容量超過100PB,已經使用的超過74PB,每天送出的作業數目有數千個之多,每天的輸入資料量已經超過7500TB,輸出超過1700TB。
- 阿裡巴巴的Hadoop叢集截至2012年大約有3200台伺服器,大約30?000實體CPU核心,總記憶體100TB,總的存儲容量超過60PB,每天的作業數目超過150?000個,每天hivequery查詢大于6000個,每天掃描資料量約為7.5PB,每天掃描檔案數約為4億,存儲使用率大約為80%,CPU使用率平均為65%,峰值可以達到80%。阿裡巴巴的Hadoop叢集擁有150個使用者組、4500個叢集使用者,為淘寶、天貓、一淘、聚劃算、CBU、支付寶提供底層的基礎計算和存儲服務
- 騰訊也是使用Hadoop最早的中國網際網路公司之一,截至2012年年底,騰訊的Hadoop叢集機器總量超過5000台,最大單叢集約為2000個節點,并利用Hadoop-Hive建構了自己的資料倉庫系統TDW,同時還開發了自己的TDW-IDE基礎開發環境。騰訊的Hadoop為騰訊各個産品線提供基礎雲計算和雲存儲服務
- 華為公司也是Hadoop主要做出貢獻的公司之一,排在Google和Cisco的前面,華為對Hadoop的HA方案,以及HBase領域有深入研究,并已經向業界推出了自己的基于Hadoop的大資料解決方案。
- 中國移動于2010年5月正式推出大雲BigCloud1.0,叢集節點達到了1024。中國移動的大雲基于Hadoop的MapReduce實作了分布式計算,并利用了HDFS來實作分布式存儲,并開發了基于Hadoop的資料倉庫系統HugeTable,并行資料挖掘工具集BC-PDM,以及并行資料抽取轉化BC-ETL,對象存儲系統BC-ONestd等系統,并開源了自己的BC-Hadoop。
二、Hadoop的安裝與配置成果截圖
