天天看點

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

作業要求來自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/316

一、簡述Hadoop平台的起源、發展曆史與應用現狀

Hadoop生态系統中,規模最大、知名度最高的公司則是Cloudera。Cloudera(英語:Cloudera, Inc.)是一家位于美國的軟體公司,向企業客戶提供基于Apache Hadoop的軟體、支援、服務以及教育訓練。Cloudera的開源Apache Hadoop發行版,亦即(Cloudera Distribution including Apache Hadoop,CDH),面向Hadoop企業級部署。Cloudera稱,其一半以上的工程産出捐贈給了各個基于Apache許可與Hadoop緊密相連的開源項目(Apache Hive、Apache Avro、Apache HBase等等)。Cloudera還是Apache軟體基金會的贊助商。

Hortonworks(英語:Hortonworks, Inc.)是一家位于美國加州帕拉奧圖的商業計算機軟體公司,專注于Apache Hadoop的開發和支援。Apache Hadoop是一種架構,能分布式處理跨計算機叢集的海量資料。Hortonworks是一家由雅虎和基準資本出資2300萬美金于2011年6月建立的獨立公司,其員工為開源軟體項目Apache Hadoop貢獻代碼。 2011年從雅虎剝離。Hortonworks的名稱來自于《Horton Hears a Who!》一書中的角色Horton the Elephant。目前,艾瑞克Baldeschweiler和Rob比爾登分别擔任首席執行官和首席營運官。Rob之前供職于SpringSource。該公司的其他投資者還有包括Index Ventures。

MapR公司是美國加州的聖何塞市的一個企業管理軟體公司,主要專注于可用性和資料安全優化和開發、銷售Apache Hadoop的衍生軟體,對Apache Hadoop主要貢獻有:HBase、Pig (程式設計語言)、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop發行版的要求提供完整的資料保護、無單點故障,這大大的提高了其性能與易用性。MAPR被亞馬遜雲服務選擇為亞馬遜彈性雲EC2的更新版本。

Pivotal公司是由EMC和VMware聯合成立的一家新公司。Pivotal希望為新一代的應用提供一個原生的基礎,建立在具有上司力的雲和網絡公司不斷轉型的IT特性之上。Pivotal的使命是推行這些創新,提供給企業IT架構師和獨立軟體提供商。Pivotal釋出了自身的Apache Hadoop發行版——Pivotal HD。Pivotal HD對Apache Hadoop進行了全面的“改造”,同其他一些Hadoop發行版(Cloudera、Intel等)相比,其最大的優勢就是能夠與Greenplum資料庫進行整合,而不僅僅是在Hadoop中運作SQL這麼簡單

IBM大家應該是耳熟能詳,作為全球最大的資訊技術和業務解決方案公司,擁有全球雇員 30多萬人,業務遍及160多個國家和地區。IBM InfoSphere是IBM推出的大資料平台,平台提供了資料整合、資料倉庫、主資料管理、大資料和資訊治理等解決方案。

星環資訊科技(上海)有限公司是目前國内極少數掌握企業級大資料Hadoop和Spark核心技術的高科技公司,從事大資料時代核心平台資料庫軟體的研發與服務。公司産品Transwarp Data Hub (TDH)的整體架構及功能特性比肩矽谷同行,産品性能在業界處于領先水準。TDH是基于Hadoop和Spark的分布式記憶體分析引擎和實時線上大規模計算分析平台,相比開源Hadoop版本有10x~100x倍性能提升,可處理GB到PB級别的資料。

紅象雲騰系統技術有限公司成立于2013年,緻力于将大資料(Hadoop、Spark、Storm等)分布式技術帶入更多中國企業,開展有大資料相關的基礎軟體平台、應用、解決方案、大資料教育訓練等業務。紅象雲騰的核心産品RedHadoop Enterprise CRH3,定位是一體化大資料平台,以此為基礎軟體平台層,他們将持續開發應用層軟體。

2004年             Doug Cutting 和 Mike Caferella實作了HDFS和MapReduce的初版

  2005年12月       Nutch移植到新架構,Hadoop在20個節點上穩定運作

  2006年1月        Doug Cutting加入雅虎

  2006年2月        Apache Hadoop項目正式啟動,支援MapReduce和HDFS獨立發展

  2006年2月        雅虎的網格計算團隊采用Hadoop

  2006年4月        在188個節點上(每個節點10GB)運作排序測試集需要47.9個小時

  2006年5月        雅虎建立了300個節點的Hadoop研究叢集

  2006年5月        在500個節點上運作排序測試集需要42個小時(硬體比4月份的更好)

  2006年11月      研究叢集增加到600個節點

  2006年12月      排序測試集在20個節點運作了1.8個小時,100個節點運作了3.3個小時,500個節點上運作了5.2個小時,900個節點上運作7.8個小時

  2007年1月        研究叢集增加到900個節點

  2007年4月        研究叢集增加到兩個叢集1000個節點

  2008年4月        在900個節點上運作1TB排序測試集僅需209秒,成為全球最快

  2008年10月      研究叢集每天加載10TB的資料

  2009年3月        17個叢集共24000個節點

    2009年4月        在每分鐘排序中勝出,59秒排序500GB(在1400個節點上)和173分鐘内排序100TB資料(在3400個節點上)

      2009年5月        Yahoo的團隊使用Hadoop對1 TB的資料進行排序隻花了62秒時間。

      2010年5月        IBM提供了基于Hadoop 的大資料分析軟體——InfoSphere BigInsights,包括基礎版和企業版。

      2011年5月        Mapr Technologies公司推出分布式檔案系統和MapReduce引擎——MapR Distribution for Apache Hadoop。

      2012年3月       企業必須的重要功能HDFS NameNode HA被加入Hadoop主版本。

   2012年10月      第一個Hadoop原生MPP查詢引擎Impala加入到了Hadoop生态圈。

2.主要版本

Hadoop的版本很特殊,是由多條分支并行的發展着。 

1.x:該版本是由0.20.x發行版系列的延續 

2.x:該版本是由0.23.x發行版系列的延續 

其實Hadoop也就兩個版本1.x和2.x 

Hadoop1.x 指的是:1.x(0.20.x)、0.21、0.22 

Hadoop2.x 指的是:2.x、0.23.x 

注意:高版本不一定包含低版本的特性

董的部落格中也解釋了各個版本的問題: 

Hadoop版本選擇探讨 

Hadoop 2.0中的基本術語解釋

Hadoop版本演變圖 

紅色:表示企業中用的最多的實際生産版本 

綠色:表示企業中用的最多的alpha版本 

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop
安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

3.主要廠商

①CLOUDERA(規模最大、知名度最高,最早将Hadoop作為商用的公司);

②Hortonworks(主打産品Hortonworks Data Platform);

③IBM(BigInsights);

④Oracle(Oracle Big Data);

⑤EMC(Apache Hadoop發行版——Pivptal HD);

4.國内外Hadoop應用的典型案例。

Hadoop應用案例1-全球最大超市業者 Wal-Mart

Wal-Mart分析顧客商品搜尋行為,找出超越競争對手的商機 

全球最大連鎖超市Wal-Mart利用Hadoop來分析顧客搜尋商品的行為,以及使用者透過搜尋引擎尋找到Wal-Mart網站的關鍵詞,利用這些關鍵詞的分析結果發掘顧客需求,以規畫下一季商品的促銷政策,甚至打算分析顧客在Facebook、Twitter等社交網站上對商品的讨論,期望能比競争對手提前一步發現顧客需求。

Wal-Mart雖然十年前就投入線上電子商務,但線上銷售的營收遠遠落後于Amazon。後來,Wal-Mart決定采用Hadoop來分析顧客搜尋商品的行為,以及使用者透過搜尋引擎尋找到Wal-Mart網站的關鍵詞,利用這些關鍵詞的分析結果發掘顧客需求,以規畫下一季商品的促銷政策。他們并進一步打算要分析顧客在Facebook、Twitter等社交網站上對商品的讨論,甚至Wal-Mart能比父親更快知道女兒懷孕的消息,并且主動寄送相關商品的促銷郵件,可說是比競争對手提前一步發現顧客。

Hadoop應用案例2-全球最大拍賣網站 eBay

eBay用Hadoop拆解非結構性巨量資料,降低資料倉儲負載 

經營拍賣業務的eBay則是用Hadoop來分析買賣雙方在網站上的行為。eBay擁有全世界最大的資料倉儲系統,每天增加的資料量有50TB,光是儲存就是一大挑戰,更遑論要分析這些資料,而且更困難的挑戰是這些資料報括了結構化的資料和非結構化的資料,如照片、影片、電子郵件、使用者的網站浏覽Log記錄等。

eBay是全球最大的拍賣網站,8千萬名使用者每天産生的資料量就達到50TB,相當于五天就增加了1座美國國會圖書館的資料量。這些資料報括了結構化的資料,和非結構化的資料如照片、影片、電子郵件、使用者的網站浏覽Log記錄等。eBay正是用Hadoop來解決同時要分析大量結構化資料和非結構化的難題。

eBay分析平台進階總監Oliver Ratzesberger也坦言,大資料分析最大的挑戰就是要同時處理結構化以及非結構化的資料。

eBay在5年多前就另外建置了一個軟硬體整合的平台Singularity,搭配壓縮技術來解決結構化資料和半結構化資料分析問題,3年前更在這個平台整合了Hadoop來處理非結構化資料,透過Hadoop來進行資料預先處理,将大塊結構的非結構化資料拆解成小型資料,再放入資料倉儲系統的資料模型中分析,來加快分析速度,也減輕對資料倉儲系統的分析負載。

Hadoop應用案例3-全球最大信用卡公司 Visa

Visa快速發現可疑交易,1個月分析時間縮短成13分鐘 

Visa公司則是擁有一個全球最大的付費網絡系統VisaNet,作為信用卡付款驗證之用。2009年時,每天就要處理1.3億次授權交易和140萬台ATM的聯機存取。為了降低信用卡各種詐騙、盜領事件的損失,Visa公司得分析每一筆事務資料,來找出可疑的交易。雖然每筆交易的資料記錄隻有短短200位,但每天VisaNet要處理全球上億筆交易,2年累積的資料多達36TB,過去光是要分析5億個使用者賬号之間的關聯,得等1個月才能得到結果,是以,Visa也在2009年時導入了Hadoop,建置了2套Hadoop叢集(每套不到50個節點),讓分析時間從1個月縮短到13分鐘,更快速地找出了可疑交易,也能更快對銀行提出預警,甚至能及時阻止詐騙交易。

  這套被衆多企業賴以解決大資料難題的分布式計算技術,并不是一項全新的技術,早在2006年就出現了,而且Hadoop的核心技術原理,更是源自Google打造搜尋引擎的關鍵技術,後來由Yahoo支援的開源開發團隊發展成一套Hadoop分布式計算平台,也成為Yahoo内部打造搜尋引擎的關鍵技術。

二、 完成Hadoop的安裝與配置

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

安裝資料庫

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

建立組

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

成功安裝ssh

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

配置安裝java環境

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop

檢測Hadoop可用

安裝關系型資料庫MySQL 安裝大資料處理架構Hadoop