天天看點

《Hadoop權威指南》書摘-初識Hadoop

《Hadoop權威指南》書摘-初識Hadoop

轉載請注明出處

獨立部落格:http://wangnan.tech

簡書:http://www.jianshu.com/u/244399b1d776**

知乎:https://zhuanlan.zhihu.com/c_121958856

資料!資料!

我們生活在一個資料爆炸的時代,我們必須想辦法好好的的儲存和分析這些資料

資料儲存和分析

  1. 解決硬體故障:使用副本
  2. 解決從無數個硬碟中讀取資料到一起去分析:MapReduce程式設計模型

hadoop是什麼?簡而言之,hadoop為我們提供了一個可靠且可擴充的儲存和分析平台

查詢所有資料

MapReduce是一個批量查詢處理器,能夠在合理的時間範圍内處理針對整個資料集的動态查詢

不僅僅是批處理

MapReduce更适合那種沒有使用者在現場等待查詢結果的離線使用場景

Hadoop的發展已經超越了批處理本身,實際上,名詞”Hadoop”有時被用于指代一個更大的,多項目組成的生态系統,産生了一些可以與hadoop協同工作的處理模式,比如互動式SQL、疊代處理、流處理、搜尋,項目例子:Hbase、YARN、Hive、Spark、Storm、Solr

相較其他系統的優勢

  1. 關系型資料庫
    《Hadoop權威指南》書摘-初識Hadoop
  2. 網格計算
    • Hadoop盡量在計算節點上儲存資料,以實作資料的本地快速通路
    • MapReduce任務之間是彼此獨立的,架構能夠檢測到失敗的任務并重新再正常的機器上執行,任務的執行順序也無關緊要
  3. 志願計算

    MapReduce有三大設計目标:

    • 為隻需短短幾分鐘或幾小時就可以完成的作業提供服務
    • 運作于同一個内部有高速網絡連接配接的資料中心内
    • 資料中心内的計算機都是可靠的、專門的硬體

Hadoop發展簡史

  • Hadoop是lucene創始人Doug Cutting建立的
  • 起源于開源網絡搜尋引擎Apache Nutch
  • 關于Hadoop名字的來曆,Doug這樣解釋:這個名字是我的孩子給他的毛絨象玩家取的,我的命名标準就是好拼讀,含義寬泛,不會用于其他地方,小朋友是這方面的高手,Googo!就是他們起的
  • 2008年成為Apache頂級項目
  • 目前Hadoop被主流企業廣泛使用,在工業界,Hadoop已經是公認的大資料通用和分析平台

繼續閱讀