大資料時代
我們生活在大資料時代,資料量遠遠超過硬碟可存儲數量。個人産生的資料正在快速的增長,個人檔案有很大的技術發展和商業前景。
資料的存儲與分析
問題:
硬碟存儲容量多年來不斷提升的同時,通路速度(硬碟的讀取速度)沒有與時俱進。
解決思路:
多線程并行同時操作資料。
還有問題:
1、硬體故障
2、不同硬碟中的資料需要結合使用。
Hadoop這樣解決
1、HDFS分布式存儲/存儲檔案副本
2、MapReduce可靠高效的程式設計模型。
MapReduce批處理++
MapReduce是一個批量查詢處理器,能夠在合理的時間範圍内處理針對整個資料集的動态查詢。查詢比較慢,比較适合使用者不在現場的查詢。
MapReduce批量查詢并不是Hadoop唯一的功能,它還內建了很多Apache投資的開源軟體。
Hadoop的優勢
-
關系型資料庫管理系統
高效性:MapReduce的高效率存儲傳輸
互動性:愈來愈好的互動性,Hive。
伸縮性:功能可随資料量的大小伸縮。
-
網格計算
對比高性能計算:高性能計算比較适合計算機密集型作業。而Hadoop盡量實作資料本地處理,節省帶寬和傳輸浪費的時間;高性能計算賦予程式員很大的控制權,而基于Hadoop平台程式員僅對MapReduce的角度考慮,資料保持隐性;Hadoop可以更好的協調各個程序。
參考文獻:
[1]Tom White 著 王海 華東 劉喻 呂粵海 譯.Hadoop權威指南,2017/7 第四版.