《Hadoop權威指南》書摘-初識Hadoop

2023-07-03 05:03:57

轉載請注明出處

獨立部落格：http://wangnan.tech

簡書:http://www.jianshu.com/u/244399b1d776**

知乎：https://zhuanlan.zhihu.com/c_121958856

資料！資料！

我們生活在一個資料爆炸的時代，我們必須想辦法好好的的儲存和分析這些資料

hadoop是什麼？簡而言之，hadoop為我們提供了一個可靠且可擴充的儲存和分析平台

MapReduce是一個批量查詢處理器，能夠在合理的時間範圍内處理針對整個資料集的動态查詢

MapReduce更适合那種沒有使用者在現場等待查詢結果的離線使用場景

Hadoop的發展已經超越了批處理本身，實際上，名詞”Hadoop”有時被用于指代一個更大的，多項目組成的生态系統，産生了一些可以與hadoop協同工作的處理模式，比如互動式SQL、疊代處理、流處理、搜尋，項目例子：Hbase、YARN、Hive、Spark、Storm、Solr

關系型資料庫

《Hadoop權威指南》書摘-初識Hadoop
網格計算
- Hadoop盡量在計算節點上儲存資料，以實作資料的本地快速通路
- MapReduce任務之間是彼此獨立的，架構能夠檢測到失敗的任務并重新再正常的機器上執行，任務的執行順序也無關緊要
志願計算

MapReduce有三大設計目标：
- 為隻需短短幾分鐘或幾小時就可以完成的作業提供服務
- 運作于同一個内部有高速網絡連接配接的資料中心内
- 資料中心内的計算機都是可靠的、專門的硬體

Hadoop是lucene創始人Doug Cutting建立的
起源于開源網絡搜尋引擎Apache Nutch
關于Hadoop名字的來曆，Doug這樣解釋：這個名字是我的孩子給他的毛絨象玩家取的，我的命名标準就是好拼讀，含義寬泛，不會用于其他地方，小朋友是這方面的高手，Googo！就是他們起的
2008年成為Apache頂級項目
目前Hadoop被主流企業廣泛使用，在工業界，Hadoop已經是公認的大資料通用和分析平台