轉載請注明出處
獨立部落格:http://wangnan.tech
簡書:http://www.jianshu.com/u/244399b1d776**
知乎:https://zhuanlan.zhihu.com/c_121958856
資料!資料!
我們生活在一個資料爆炸的時代,我們必須想辦法好好的的儲存和分析這些資料
資料儲存和分析
- 解決硬體故障:使用副本
- 解決從無數個硬碟中讀取資料到一起去分析:MapReduce程式設計模型
hadoop是什麼?簡而言之,hadoop為我們提供了一個可靠且可擴充的儲存和分析平台
查詢所有資料
MapReduce是一個批量查詢處理器,能夠在合理的時間範圍内處理針對整個資料集的動态查詢
不僅僅是批處理
MapReduce更适合那種沒有使用者在現場等待查詢結果的離線使用場景
Hadoop的發展已經超越了批處理本身,實際上,名詞”Hadoop”有時被用于指代一個更大的,多項目組成的生态系統,産生了一些可以與hadoop協同工作的處理模式,比如互動式SQL、疊代處理、流處理、搜尋,項目例子:Hbase、YARN、Hive、Spark、Storm、Solr
相較其他系統的優勢
- 關系型資料庫
- 網格計算
- Hadoop盡量在計算節點上儲存資料,以實作資料的本地快速通路
- MapReduce任務之間是彼此獨立的,架構能夠檢測到失敗的任務并重新再正常的機器上執行,任務的執行順序也無關緊要
-
志願計算
MapReduce有三大設計目标:
- 為隻需短短幾分鐘或幾小時就可以完成的作業提供服務
- 運作于同一個内部有高速網絡連接配接的資料中心内
- 資料中心内的計算機都是可靠的、專門的硬體
Hadoop發展簡史
- Hadoop是lucene創始人Doug Cutting建立的
- 起源于開源網絡搜尋引擎Apache Nutch
- 關于Hadoop名字的來曆,Doug這樣解釋:這個名字是我的孩子給他的毛絨象玩家取的,我的命名标準就是好拼讀,含義寬泛,不會用于其他地方,小朋友是這方面的高手,Googo!就是他們起的
- 2008年成為Apache頂級項目
- 目前Hadoop被主流企業廣泛使用,在工業界,Hadoop已經是公認的大資料通用和分析平台